いつものように、政府統計の総合窓口のサイト、e-Statを訪問したら、新着データで、「青果物卸売市場調査」というデータが新着でありました。
クリックしてみました。
本調査は、青果物卸売市場の取引状況を調査し、野菜50品目、果物44品目・品種別の日別・月別及び年間の卸売数量、価格等を全国(年間のみ)、市場別及び産地別に提供しています。
とのことです。さらにクリックしてみました。
このように、毎日のファイルが提供されているようです。さらにクリックします。
これは、7月2日の画面です。主要卸売統計、仙台市、東京都など各都市別にファイルがあります。
主要卸売市場統計のCSVファイルをダウンロードしてみました。
このように品目名、産地、数量、価格がありました。
このファイルをとりあえず、7月2日から7月31日までダウンロードして、一つのファイルにこのようにまとめました。
このファイルをR言語に読込んで、分析をしたいと思います。
まずは、read.csv関数でデータを読込み、summary関数を使いましょう。
IDのMaxの数字を見ると、5585とあります。つまり、データレコードの数が5585個ある、ということです。
品目名と産地はtable関数を使って野菜の種類ごとの度数、産地ごとの度数をだしてみます。
度数の多い順に並び替えてみましょう。order関数を使います。
これですこしわかりやすくなりましたね。なす、にら、ピーマン、きゅうり、トマトなどが多く登場していて、実えんどう、はくさい、セルリー、レタスは少ないですね。レタスが少ないのは意外でした。
産地も度数の多い順に表示しましょう。
北海道、茨城、長野、千葉などが多く登場します。岡山は1回しか登場しません。岡山は野菜というよりは、果物なのでしょうか?
数量と価格については標準偏差もだしましょう。sd関数を使います。
というようになりました。数量と価格ではどちらがバラツキがあるのでしょうか?
変動係数 = 標準偏差 / 平均値 を計算してみます。平均値はmean関数です。
数量の変動係数は4.90で、価格の変動係数は0.76ですから、数量のデータのほうがバラツキが大きいことがわかります。