crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

牛乳乳製品の生産動向分析2 - 主要乳製品の相関関係を見る(cor関数)

今回は主要乳製品の相関関係を見てみます。

まずは、csvファイルにあるデータをread.csv関数でR言語に読込みます。

f:id:cross_hyou:20180815144338j:plain

このように、各製品の生産量(トン、アイスクリームはキロリットル)と前年伸び率(パーセント)のデータです。

バター、脱脂粉乳、れん乳類、全紛乳、チーズ、調整紛乳、クリーム、アイスクリームの8種類があります。これらの相関係数をみてみましょう。

まずは、生産量だけ、伸び率だけのデータフレームを作成します。

f:id:cross_hyou:20180815144932j:plain

f:id:cross_hyou:20180815145152j:plain

うまく作成できました。

相関係数を算出するには、cor関数を使います。

f:id:cross_hyou:20180815145540j:plain

cor関数は、NAがあると計算できないので、まず、na.omit(生産量)としてやってNAのデータを削除します。それをcor関数で相関係数を計算し、round関数で小数点以下2桁までで表示しています。

バターと脱脂粉乳は0.96で高い相関です。絶対値で0.9以上の高相関の組み合わせを上げると、正の相関の組み合わせは、「バターと脱脂粉乳」「れん乳類と全紛乳」「全紛乳と調整紛乳」の3つです。逆相関の組み合わせは、「れん乳類とチーズ」「全紛乳とチーズ」「全紛乳とクリーム」「調整紛乳とクリーム」の組み合わせです。

伸び率の相関も計算してみましょう。

f:id:cross_hyou:20180815150527j:plain

伸び率どうしの相関係数は、生産量どうしの相関係数よりも低いです。

こうしてみると、8つの主要製品は、
第1グループ(バター、脱脂粉乳)

第2グループ(れん乳類、全紛乳、調整紛乳)

第3グループ(チーズ、クリーム)

その他(アイスクリーム)

という感じで分類できるような気がします。

次回の因子分析で確かめてみましょう。