Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

牛乳乳製品の生産動向分析8 - 昭和60年と平成29年の主要乳製品の生産量比率の違いを検定

 前回の分析で、主要乳製品の生産量の割合は昭和60年と平成29年でかなり違っていることがわかりました。今回はこの2つの年のデータを比較して、割合が有意に違っているのかどうかを検定してみます。

まずは、csvファイルに保存してあるデータをread.csv関数で読込みます。

f:id:cross_hyou:20180818121254j:plain

f:id:cross_hyou:20180818121306j:plain

head関数で始めの6行、tail関数で最後の6行のデータを表示しています。

これで、昭和60年は5行目、平成29年は29行目、生産量は、2, 4, 6, 8,10, 12, 14, 16列目に配置されていることがわかります。

それでは、昭和60年と平成29年の生産量と年度だけのデータフレームを作成します。

f:id:cross_hyou:20180818121848j:plain

あ、そうでした、アイスクリームだけ生産量の単位が違っていて、キロリットルでした。その他はトンです。なので、アイスクリームも削除してしまいましょう。

f:id:cross_hyou:20180818122118j:plain

それぞれの年の生産量の比率を出しましょう。まず、as.matrix関数で行列に変換してから、prop.table関数を使います。

f:id:cross_hyou:20180818122608j:plain

チーズとクリームが増えて、その他は減少しています。

この生産比率の表をグラフで表します。barplot関数を使いました。

f:id:cross_hyou:20180818123122j:plain

下の黒い部分が昭和60年で、上の明るい部分が平成29年です。全紛乳はかなり減っていますし、チーズ、クリームが増加していることがわかります。

それでは、この2つの年の生産量をクロス表とみなしてカイ自乗検定をしましょう。

まず、マトリックス(行列)に変換します。

f:id:cross_hyou:20180818124232j:plain

カイ自乗検定はchisq.test関数です。

f:id:cross_hyou:20180818124436j:plain

p-value < 2.23-16 < 0.05 ですから、有意です。

もう少し丁寧に書くと、

帰無仮説:昭和60年と平成29年で主要乳製品の生産割合に違いは無い

対立仮説:昭和60年と平成29年で主要乳製品の生産割合に違いはある

で、p-value < 2.2e-16 < 0.05 なので帰無仮説は棄却されます。対立仮説が採用され、昭和60年と平成29年で主要乳製品の生産割合に違いはあることがわかります。何らかの要因でチーズやクリームの生産が増えたということですね。

たしかに、昭和60年ごろってチーズってスライスチーズをパンにはさんでサンドイッチで食べるぐらいだったような気がしますが、今はピザやチーズダッカルビとか、4種のチーズ親子丼とかいろいろありますね。