今回は主要乳製品の相関関係を見てみます。
まずは、csvファイルにあるデータをread.csv関数でR言語に読込みます。
このように、各製品の生産量(トン、アイスクリームはキロリットル)と前年伸び率(パーセント)のデータです。
バター、脱脂粉乳、れん乳類、全紛乳、チーズ、調整紛乳、クリーム、アイスクリームの8種類があります。これらの相関係数をみてみましょう。
まずは、生産量だけ、伸び率だけのデータフレームを作成します。
うまく作成できました。
相関係数を算出するには、cor関数を使います。
cor関数は、NAがあると計算できないので、まず、na.omit(生産量)としてやってNAのデータを削除します。それをcor関数で相関係数を計算し、round関数で小数点以下2桁までで表示しています。
バターと脱脂粉乳は0.96で高い相関です。絶対値で0.9以上の高相関の組み合わせを上げると、正の相関の組み合わせは、「バターと脱脂粉乳」「れん乳類と全紛乳」「全紛乳と調整紛乳」の3つです。逆相関の組み合わせは、「れん乳類とチーズ」「全紛乳とチーズ」「全紛乳とクリーム」「調整紛乳とクリーム」の組み合わせです。
伸び率の相関も計算してみましょう。
伸び率どうしの相関係数は、生産量どうしの相関係数よりも低いです。
こうしてみると、8つの主要製品は、
第1グループ(バター、脱脂粉乳)
第2グループ(れん乳類、全紛乳、調整紛乳)
第3グループ(チーズ、クリーム)
その他(アイスクリーム)
という感じで分類できるような気がします。
次回の因子分析で確かめてみましょう。