www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

花き産業振興総合調査の分析4 - 各データの散布図(plot関数)と相関を見る(cor関数)

今回は、花き産業振興総合調査のデータを相関関係から見てみたいと思います。

まずは、csvファイルに保存してあるデータをread.csv関数で読み込みます。

f:id:cross_hyou:20180806233808j:plain

相関係数を求める関数は、cor関数です。cor関数はデータフレームが数値データだけだと、そのデータフレームの相関マトリックスを表示してくれます。この「花きデータ」は、1列目は種類、2列目は年なので、1列目と2列目を除外してcor関数を使います。

cor(花きデータ[ , c(-1,-2)])と入力します。

f:id:cross_hyou:20180806234321j:plain

一番相関の強い組合せは、作付面積と出荷数量です。一番相関の弱い組合せは、栽培農家数と出荷額です。

plot関数で散布図を作成します。plot関数はデータフレームが数値データだけだと、散布図のマトリックスを作成します。

f:id:cross_hyou:20180806234700j:plain

f:id:cross_hyou:20180806234713j:plain

こうして散布図を見ると、栽培農家数と出荷額が一番バラバラになっているとわかりますね。そして、それぞれの散布図のデータですが、いくつかのカタマリになっているように見えます。これは、花きの種類ごとにカタマリになっていると推測できます。

種類ごとの相関マトリックスと散布図マトリックスを作成しましょう。まずは、それぞれの種類ごとのデータフレームを作成しました。

f:id:cross_hyou:20180806235159j:plain

サツキの相関マトリックスはこうなりました。

f:id:cross_hyou:20180806235352j:plain

全体では、0.38と低い値だった栽培農家数と出荷額の相関係数が0.84と高い値になりました。散布図マトリックスはこうなりました。

f:id:cross_hyou:20180806235713j:plain

f:id:cross_hyou:20180806235726j:plain

つぎは、ツツジです。

f:id:cross_hyou:20180807000005j:plain

f:id:cross_hyou:20180807000021j:plain

つぎは、カイヅカイブキです。

f:id:cross_hyou:20180807000343j:plain

f:id:cross_hyou:20180807000356j:plain

カイヅカイブキ相関係数が高いですね。

お次は、タマイブキです。

f:id:cross_hyou:20180807000707j:plain

f:id:cross_hyou:20180807000719j:plain

ツバキはこうです。

f:id:cross_hyou:20180807001005j:plain

f:id:cross_hyou:20180807001018j:plain

次はモミジです。

f:id:cross_hyou:20180807001344j:plain

f:id:cross_hyou:20180807001355j:plain

モミジは前回の分析でもそうでしたが、他の種類の花きとは傾向が違いますね。

出荷額が他のデータを逆相関になっています。

ヒバ類はどうでしょうか?

f:id:cross_hyou:20180807001838j:plain

f:id:cross_hyou:20180807001853j:plain

最後は、ツゲ類です。

f:id:cross_hyou:20180807002143j:plain

f:id:cross_hyou:20180807002158j:plain

ツゲ類の栽培農家数と出荷額もマイナスの相関係数でした。