www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の医療施設調査の病院数のデータ分析7 - Rで階層的クラスタリングをしてみる。

UnsplashJan Cantyが撮影した写真 

www.crosshyou.info

今回は、Rで階層的クラスタリングをしてみます。

R言語でクラスタリングしてみた - Qiita

を参考にしています。

まずは、クラスリング用のマトリックスオブジェクトを作成します。

chg: 病院数の変化数(1999年から2019年)

pct: 病院数の変化率(1999年から2019年)

per2019: 2019年の人口10万人当たりの病院数

per_chg: 人口10万人当たりの病院数の変化幅(1999年から2019年)

の4つの変数を使ってクラスタリングをしてみます。

次に、scale()関数で、各変数を平均が0、標準偏差が1の標準化データにします。

summary()関数で平均が4つとも0になっていることが確認できます。apply()関数とsd()関数で標準偏差が4つとも1になっていることが確認できます。

dist()関数で距離オブジェクトを作成します。

methodのアトリビューションがeuclideanとなっていますので、距離を計算する方法がユークリッド法で計算されていることがわかります。

次は、hclust()関数でクラスタリングをします。

methodがcompleteとあるので、完全連結法でクラスタリングをしています。

plot()関数で結果を樹形図にして表示します。

今回は4つのグループにしてみます。

cutree()関数でk=4にします。

樹形図の順番で分類すると、左から、1、4,3、2の順番ですね。

4つの色に分けてみましょう、赤、青、緑、灰色 にしてみます。

この色を利用して散布図を描きます。

なかなかいい感じにクラスタリングできていますね。

この散布図もいい感じですね。

今回は以上です。

初めから読むには、

www.crosshyou.info

です。