今回は、県民経済計算のデータを使ってクラスター分析をしてみようと思います。
前回のブログは以下のリンクからご覧ください。
まずは、R言語でデータを読み込んで、成長性などを偏差値で表したデータフレームを見てみます。
このようなデータフレームでした。民間と政府のバランスの偏差値も作成しましょう。
偏差値は、(観測値 - 平均値) / 標準偏差 * 10 + 50 ですね。
summary関数で民間政府偏差値がdata2のデータフレームに追加されているか確認しましょう。
今回は、成長性偏差値、経済規模偏差値、裕福さ偏差値、民間政府偏差値の4つの偏差値を使ってクラスター分析をしてみたいと思います。
まずは、各都道府県の距離(類似度)を求めるデータの行列を作成します。
このように、matrix(c(ベクトル1, ベクトル2, ベクトル3), 行数, 列数)のようにして複数のベクトルを一つの行列にまとめることができます。
rownamesとcolnamesでマトリックスの行と列に名前をつけることができます。
head関数で始めの6行を表示してみましょう。
このように行列ができました。この行列を使って各都道府県どうしの距離(類似度)を求めます。dist関数です。
どのようなデータが生成されるかというと、
このようなデータで、北海道と青森の距離(類似度)は19.556304と計算されたのがわかります。
こうして作成した距離(類似度)行列をhclust関数で処理して、plot関数で樹形図を作成します。
このような結果となりました。東京が左端にあって他の府道県とは違っているぞ、ということがわかりますね。
次回はクロス表分析をしてみたいと思います。