今回の分析では、7月の青果物卸売市場調査のデータを使って、産地によって同じ野菜でも価格に違いがあるかどうか?を分析しようと思います。
まずは、CSVファイルに保存してあるデータをread.csv関数でR言語に読込み、summary関数でデータの要約統計量を表示します。
まずは、「なす」について調べましょう。「なす」だけのデータフレームを作成します。このとき、産地名で「全国集計」とあるものは除外します。subset関数を使います。
summary関数の結果を見ますと、産地名のところに注目すると、茨城、群馬、栃木の3件が多くの日数で出荷しているようですね。そして、価格のところを見ると、最低価格は205円、最高価格は536円、中央値は350円、平均値は347円です。
価格のヒストグラムをみてみます。hist関数です。
hist関数で、labels=TRUEとオプションを追加すると、度数も一緒に表示されます。
茨城産のなすの価格の要約統計量を見てみます。
平均値は281円50銭、中央値は277円00銭です。
同じように、群馬産、栃木産のなすのデータも算出します。
群馬産は平均値は398円70銭、中央値は403円00銭
栃木産は平均値は367円50銭、中央値は361円00銭です。
茨城と群馬では、100円以上違いますね。
それぞれの産地のデータの数は23、22なので平均値に差があるかではなくて、中央値に差があるか、を検定します。
ウィルコクソン=マン・ホイットニー検定を使います。関数は、wilcox.test関数です。
p-value = 3.421e-08 < 0.05 ですから、茨城産のなすと栃木産のなすの価格の分布には違いがあります。
茨城と群馬ではどうでしょうか?
p-value = 9.781e-09 < 0.05 ですから、茨城産のなすと群馬産のなすの価格の分布には違いがあります。
群馬と栃木ではどうでしょうか?
p-value = 0.0005333 < 0.05 ですから、群馬産のなすと栃木産のなすでは、価格の分布に違いがあります。
以上から、3つの産地それぞれで、なすの価格に違いはあることがわかりました。
最後にそれぞれの価格のヒストグラムを表示しましょう。
たしかに、3つの産地で価格に分布に違いがありますね。