Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の雇用動向調査のデータ分析7 - 階層的クラスタリングをすると、和歌山県が特別な存在だとわかった。

Bing Image Creatorから生成。Big Mountain, White Snow, Blue Sky, Photo

 

www.crosshyou.info

このポストは、上のポストの続きです。

前回のポストでは、男性と女性の入職者比率が若い世代では違いはありませんでしたが、老年の世代では違いがあることがわかりました。

今回は、階層的クラスタリングをして都道府県をいくつかのクラスターに分類してみます。

まずは、都道府県ごとに平均値と標準偏差を計算したデータフレームを作成します。

都道府県ごとの平均値と標準偏差です。

このデータフレームから、クラスリングのためのマトリックスオブジェクトを作成します。

次に、各変数を標準化(平均値が0、標準偏差1)にします。

scale()関数で標準化しました。確認のために、apply()関数の中でmean()関数、sd()関数を使って各変数の平均値と標準偏差を計算しました。平均値は0、標準偏差は1で統一されていることが確認できました。

次は、dist()関数で各都道府県間の距離を求めます。

そうしたら、hclust()関数で樹形図を作成します。

これをplot()関数で視覚化します。

和歌山県は他のどの都道府県とも違うことがわかりました。

plot(hc, hang = -1)とすると、全ての都道府県が同じ高さで表示されます。

このようになります。

この樹形図を見ると、

こんな感じで5つのクラスターに分けるのが妥当なようです。

cuttree()関数で5つのクラスターに分けます。

クラスターごとの都道府県の数をみてみましょう。

このようになりましたので、

このように割り振られていることがわかります。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。