www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の企業の土地取得状況等に関する調査のデータ分析６ - Rで階層的クラスタリングと主成分分析

データ分析

Generated by Bing Image Creator: Photo of very beautiful wooden building, blighter morning and blue sky and white could image

www.crosshyou.info

の続きです。

今回は、Rで階層的クラスタリングと主成分分析をしてみます。

まずはクラスタリング用のオブジェクトを用意します。

もとからあるデータフレームから pref を削除して、マトリックスオブジェクトにして、列名に pref を入れました。

次に、dist() 関数で各都道府県間の距離を計算します。

この距離オブジェクトを、hclust() 関数で階層的クラスタリングします。

plot() 関数で結果を表示します。

北海道があきらかに他の都府県とは違うことがわかります。

cutree() 関数で、このクラスタリングの樹形図をもとに4つのグループにわけてみます。

北海道は１、青森県は２、岩手県は３などとわかります。

グラフにしてみます。

１と４は特殊な感じで、２のほうが経済規模が小さな府県が入っているような感じです。

今度は、主成分分析をしてみようと思います。

prcomp() 関数で主成分分析が可能です。

select() 関数で主成分分析に使わない pref, cluster を削除してprcomp() 関数を適用します。scale = T にしているのは、含まれているデータの種類が企業数、面積、変化率とバラバラなので標準化するためです。

この主成分分析の第一主成分PC1と第二主成分PC2をデータフレームに追加します。

rpca$x で主成分分析の結果が格納されています。

クラスタリングの結果と主成分分析の結果を散布図にしてみましょう。

左下に北海道がポツンと位置しています。その他は、右下がりの直線上に位置していますね。

北海道を除いた散布図も描いてみます。

クラスターごとにわかれた散布図ですね。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。

ランキング参加中