www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のスポーツテストのデータ分析5 - R言語でクラスタリング。dist関数とhclust関数とplot関数

 

www.crosshyou.info

 の続きです。

今回は、R言語でクラスタリングをしてみようと思います。

data_scaledをas.matrix関数で単純なマトリックスにします。

f:id:cross_hyou:20201101100806p:plain

列名を都道府県名 + total_scoreにします。paste関数で文字列を結合します。

f:id:cross_hyou:20201101100918p:plain

str関数で構造を確認しましょう。

f:id:cross_hyou:20201101101028p:plain

dist関数でそれぞれの距離を計算します。

f:id:cross_hyou:20201101101123p:plain

hclust関数でクラスタリングします。

f:id:cross_hyou:20201101101230p:plain

plot関数で視覚化します。

f:id:cross_hyou:20201101101415p:plain

成績の良い福井県と茨城県が同じグループになっていたり、成績の悪い北海道が一つのグループになっていたりと、クラスタリングができたことがわかります。

今回は以上です。