Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のケーブルテレビ加入世帯数のデータの分析6 - R言語で階層的クラスタリングをする。

 

www.crosshyou.info

 の続きです。

今回はR言語で階層的クラスタリングをしてみます。

まず、select関数でtv_gr: テレビ放送受信契約数の伸び, catv_gr: ケーブルテレビ加入世帯数の伸び, bb_gr: ブロードバンドサービス契約数の伸びだけを選択して、as.matrix関数でマトリックスを作ります。

f:id:cross_hyou:20210213091426p:plain

次にdist関数で各都道府県間の距離を計算します。

f:id:cross_hyou:20210213091535p:plain

hclust関数で階層的クラスタリングを作成します。

f:id:cross_hyou:20210213091714p:plain

plot関数で視覚化します。

f:id:cross_hyou:20210213092011p:plain

f:id:cross_hyou:20210213092135p:plain

一番左に東京都があります。東京都は他の都道府県と大きく違うことがわかります。

ここからは、

tarutaru-blogs.com

を参考にして、クラスタを4つに区切ってみます。cutree関数を使います。

f:id:cross_hyou:20210213092422p:plain

作成したオブジェクトをデータフレームにします。

f:id:cross_hyou:20210213092604p:plain

df2と作成したデータフレームをinner_join関数を使って結合します。

f:id:cross_hyou:20210213092730p:plain

クラスタごとに色分けした散布図を描いてみます。

tv_grとcatv_grの散布図です。

f:id:cross_hyou:20210213093241p:plain

f:id:cross_hyou:20210213093259p:plain

tv_grとcatv_grではクラスタごとに散布していない感じですね。

tv_grとbb_grの散布図はどうでしょうか?

f:id:cross_hyou:20210213093544p:plain

f:id:cross_hyou:20210213093559p:plain

きれいにクラスタごとに分かれていますね。bb_grの数値で分けられている感じですね。

bb_grとcatv_grの散布図も見てみます。

f:id:cross_hyou:20210213094035p:plain

f:id:cross_hyou:20210213094053p:plain

cex = 8というのを加えて文字を大きくしてみました。縦軸がbb_grです。やはりbb_grの数値でクラスタリングされているようですね。

今回は以上です。

はじめから読むには、

 

www.crosshyou.info

 です。