前回の分析で、主要乳製品の生産量の割合は昭和60年と平成29年でかなり違っていることがわかりました。今回はこの2つの年のデータを比較して、割合が有意に違っているのかどうかを検定してみます。
まずは、csvファイルに保存してあるデータをread.csv関数で読込みます。
head関数で始めの6行、tail関数で最後の6行のデータを表示しています。
これで、昭和60年は5行目、平成29年は29行目、生産量は、2, 4, 6, 8,10, 12, 14, 16列目に配置されていることがわかります。
それでは、昭和60年と平成29年の生産量と年度だけのデータフレームを作成します。
あ、そうでした、アイスクリームだけ生産量の単位が違っていて、キロリットルでした。その他はトンです。なので、アイスクリームも削除してしまいましょう。
それぞれの年の生産量の比率を出しましょう。まず、as.matrix関数で行列に変換してから、prop.table関数を使います。
チーズとクリームが増えて、その他は減少しています。
この生産比率の表をグラフで表します。barplot関数を使いました。
下の黒い部分が昭和60年で、上の明るい部分が平成29年です。全紛乳はかなり減っていますし、チーズ、クリームが増加していることがわかります。
それでは、この2つの年の生産量をクロス表とみなしてカイ自乗検定をしましょう。
まず、マトリックス(行列)に変換します。
カイ自乗検定はchisq.test関数です。
p-value < 2.23-16 < 0.05 ですから、有意です。
もう少し丁寧に書くと、
帰無仮説:昭和60年と平成29年で主要乳製品の生産割合に違いは無い
対立仮説:昭和60年と平成29年で主要乳製品の生産割合に違いはある
で、p-value < 2.2e-16 < 0.05 なので帰無仮説は棄却されます。対立仮説が採用され、昭和60年と平成29年で主要乳製品の生産割合に違いはあることがわかります。何らかの要因でチーズやクリームの生産が増えたということですね。
たしかに、昭和60年ごろってチーズってスライスチーズをパンにはさんでサンドイッチで食べるぐらいだったような気がしますが、今はピザやチーズダッカルビとか、4種のチーズ親子丼とかいろいろありますね。