今回は、花き産業振興総合調査のデータを相関関係から見てみたいと思います。
まずは、csvファイルに保存してあるデータをread.csv関数で読み込みます。
相関係数を求める関数は、cor関数です。cor関数はデータフレームが数値データだけだと、そのデータフレームの相関マトリックスを表示してくれます。この「花きデータ」は、1列目は種類、2列目は年なので、1列目と2列目を除外してcor関数を使います。
cor(花きデータ[ , c(-1,-2)])と入力します。
一番相関の強い組合せは、作付面積と出荷数量です。一番相関の弱い組合せは、栽培農家数と出荷額です。
plot関数で散布図を作成します。plot関数はデータフレームが数値データだけだと、散布図のマトリックスを作成します。
こうして散布図を見ると、栽培農家数と出荷額が一番バラバラになっているとわかりますね。そして、それぞれの散布図のデータですが、いくつかのカタマリになっているように見えます。これは、花きの種類ごとにカタマリになっていると推測できます。
種類ごとの相関マトリックスと散布図マトリックスを作成しましょう。まずは、それぞれの種類ごとのデータフレームを作成しました。
サツキの相関マトリックスはこうなりました。
全体では、0.38と低い値だった栽培農家数と出荷額の相関係数が0.84と高い値になりました。散布図マトリックスはこうなりました。
つぎは、ツツジです。
つぎは、カイヅカイブキです。
お次は、タマイブキです。
ツバキはこうです。
次はモミジです。
モミジは前回の分析でもそうでしたが、他の種類の花きとは傾向が違いますね。
出荷額が他のデータを逆相関になっています。
ヒバ類はどうでしょうか?
最後は、ツゲ類です。
ツゲ類の栽培農家数と出荷額もマイナスの相関係数でした。