www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

各地の気温と降水量の分析5 - 加工データでクラスター分析をしてみる。

前回は、原データでクラスター分析をしたので、今回は加工データでクラスター分析をしてみます。まずは、「日本の統計」にあった各地の気温と降水量のデータをread.csv関数でR言語に読込みます。

f:id:cross_hyou:20181010191753j:plain

こんな感じのデータですね。このデータから、最大降水量や最高気温、寒暖差などを作成しました。そして出来たデータフレームがこちらです。

f:id:cross_hyou:20181010192021j:plain

このように、平均気温、最高気温、最低気温、寒暖差、平均降水量、最大降水量、最小降水量、降水量差の8種類のデータのデータフレームです。このデータフレームでクラスター分析をしてみましょう。

f:id:cross_hyou:20181010192804j:plain

まず、as.matrix関数でデータフレームを行列に変換します。

そして、dist関数で行列の距離(類似度)を計算した行列を作ります。

上の結果だと、例えば札幌と青森の距離(類似度)は28で、札幌と盛岡の距離(類似度)は72ですから、札幌には青森のほうが近いということですね。

f:id:cross_hyou:20181010193303j:plain

hclust関数でクラスター処理をして、plot関数で結果をツリー図形で表示します。

f:id:cross_hyou:20181010193408j:plain

こうなりました。前回のツリー図形を再掲しましょう。

f:id:cross_hyou:20181006161645j:plain

前回のツリー図形

札幌に注目すると、今回は札幌と長野がまずペアを作り、それが山形と青森のペアとつながります。

前回は札幌と青森がペアになり、それが多くのグループとつながりました。

このように原データをもとにしたクラスター分析と加工データをもとにしたクラスター分析では違う結果になるのですね。

非階層クラスター分析もしてみます。

f:id:cross_hyou:20181010194318j:plain

kmeans関数で非階層的クラスター分析ができます。札幌、青森、盛岡などは第2クラスターに属します。

f:id:cross_hyou:20181010194655j:plain

plot関数で散布図を描きます。

f:id:cross_hyou:20181010194740j:plain

黒が1クラスター、赤が2クラスター、緑が3クラスターです。

原データを加工したデータでのクラスター分析結果は、原データのクラスター分析結果とは異なる結果になることがわかりました。