今回は青果物卸売市場調査のデータを使って、7月に一番数量の出た野菜は何かを調べたいと思います。
まずは、CSVファイルに保存してあるデータをread.csv関数を使って読込み、summary関数を使ってデータの要約を表示しましょう。
品目名の列名のところを見ると、「野菜総量」というのがあります。これは、その日の野菜すべてを合計したものです。また、産地名には「全国集計」というものがあります。これもその日の産地すべてを合計したものになります。なので、個々の野菜の品目に注目したいので、これらを除いたデータフレームを作成します。
こうしておいて品目名別に数量を合計します。tapply関数とsum関数です。
う~ん、小数点以下の数字もあってわかりにくいですね。round関数を使って整数部分だけにしましょう。
だいぶわかりやすくなりました。仕上げに大きい順に並び替えましょう。order関数で並び替えます。
キャベツが一番、レタスが二番、はくさいが三番でした。はくさいって冬のイメージですが、夏でもいっぱいでているんですね。
ところで、この数量の単位は何でしょうか?農林水産省のウェブページを訪問してみました。
これによると、トンだそうです。
キャベツは7月に、35万3543トンも出荷された、ということですね。
barplot関数でグラフ表示してみます。
上位の品目でほとんど出荷量を占めていることがわかります。
同じような手順で、産地ではどこが一番多く出荷しているかを調べましょう。
長野が一番、北海道が二番、群馬が三番でした。長野は5179万2994トンの出荷でした。
棒グラフで表しましょう。
今回の分析をまとめると、
数量が出た野菜は、キャベツが一番、レタスが二番、はくさいが三番でした。
産地別では、長野が一番、北海道が二番、群馬が三番でした。