県民経済計算の分析６ - R言語でクラスター分析 - Rで何かをしたり、読書をするブログ

今回は、県民経済計算のデータを使ってクラスター分析をしてみようと思います。

前回のブログは以下のリンクからご覧ください。

まずは、R言語でデータを読み込んで、成長性などを偏差値で表したデータフレームを見てみます。

f:id:cross_hyou:20181023123828j:plain

このようなデータフレームでした。民間と政府のバランスの偏差値も作成しましょう。

f:id:cross_hyou:20181023124119j:plain

偏差値は、(観測値 - 平均値) / 標準偏差 * 10 + 50 ですね。

summary関数で民間政府偏差値がdata2のデータフレームに追加されているか確認しましょう。

f:id:cross_hyou:20181023124357j:plain

今回は、成長性偏差値、経済規模偏差値、裕福さ偏差値、民間政府偏差値の4つの偏差値を使ってクラスター分析をしてみたいと思います。

まずは、各都道府県の距離(類似度)を求めるデータの行列を作成します。

f:id:cross_hyou:20181023125307j:plain

このように、matrix(c(ベクトル1, ベクトル2, ベクトル3), 行数, 列数)のようにして複数のベクトルを一つの行列にまとめることができます。

f:id:cross_hyou:20181023125700j:plain

rownamesとcolnamesでマトリックスの行と列に名前をつけることができます。

head関数で始めの6行を表示してみましょう。

f:id:cross_hyou:20181023125824j:plain

このように行列ができました。この行列を使って各都道府県どうしの距離(類似度)を求めます。dist関数です。

f:id:cross_hyou:20181023130702j:plain

どのようなデータが生成されるかというと、

f:id:cross_hyou:20181023130748j:plain

このようなデータで、北海道と青森の距離(類似度)は19.556304と計算されたのがわかります。

こうして作成した距離(類似度)行列をhclust関数で処理して、plot関数で樹形図を作成します。

f:id:cross_hyou:20181023131203j:plain

f:id:cross_hyou:20181023131239j:plain

このような結果となりました。東京が左端にあって他の府道県とは違っているぞ、ということがわかりますね。

今回はR言語でクラスター分析をしてみました。

次回はクロス表分析をしてみたいと思います。