前回は、原データでクラスター分析をしたので、今回は加工データでクラスター分析をしてみます。まずは、「日本の統計」にあった各地の気温と降水量のデータをread.csv関数でR言語に読込みます。
こんな感じのデータですね。このデータから、最大降水量や最高気温、寒暖差などを作成しました。そして出来たデータフレームがこちらです。
このように、平均気温、最高気温、最低気温、寒暖差、平均降水量、最大降水量、最小降水量、降水量差の8種類のデータのデータフレームです。このデータフレームでクラスター分析をしてみましょう。
まず、as.matrix関数でデータフレームを行列に変換します。
そして、dist関数で行列の距離(類似度)を計算した行列を作ります。
上の結果だと、例えば札幌と青森の距離(類似度)は28で、札幌と盛岡の距離(類似度)は72ですから、札幌には青森のほうが近いということですね。
hclust関数でクラスター処理をして、plot関数で結果をツリー図形で表示します。
こうなりました。前回のツリー図形を再掲しましょう。
札幌に注目すると、今回は札幌と長野がまずペアを作り、それが山形と青森のペアとつながります。
前回は札幌と青森がペアになり、それが多くのグループとつながりました。
このように原データをもとにしたクラスター分析と加工データをもとにしたクラスター分析では違う結果になるのですね。
非階層クラスター分析もしてみます。
kmeans関数で非階層的クラスター分析ができます。札幌、青森、盛岡などは第2クラスターに属します。
plot関数で散布図を描きます。