crosshyou

主にクロス表(分割表)分析をしようかなと思います。

青果物卸売市場調査の分析1 - 基本統計量(summary関数, table関数, sd関数)

いつものように、政府統計の総合窓口のサイト、e-Statを訪問したら、新着データで、「青果物卸売市場調査」というデータが新着でありました。

f:id:cross_hyou:20180825105916j:plain

クリックしてみました。

f:id:cross_hyou:20180825105935j:plain

本調査は、青果物卸売市場の取引状況を調査し、野菜50品目、果物44品目・品種別の日別・月別及び年間の卸売数量、価格等を全国(年間のみ)、市場別及び産地別に提供しています。

とのことです。さらにクリックしてみました。

f:id:cross_hyou:20180825110129j:plain

このように、毎日のファイルが提供されているようです。さらにクリックします。

f:id:cross_hyou:20180825110211j:plain

これは、7月2日の画面です。主要卸売統計、仙台市、東京都など各都市別にファイルがあります。

主要卸売市場統計のCSVファイルをダウンロードしてみました。

f:id:cross_hyou:20180825110351j:plain

このように品目名、産地、数量、価格がありました。

このファイルをとりあえず、7月2日から7月31日までダウンロードして、一つのファイルにこのようにまとめました。

f:id:cross_hyou:20180825110502j:plain

このファイルをR言語に読込んで、分析をしたいと思います。

まずは、read.csv関数でデータを読込み、summary関数を使いましょう。

f:id:cross_hyou:20180825111241j:plain

IDのMaxの数字を見ると、5585とあります。つまり、データレコードの数が5585個ある、ということです。

品目名と産地はtable関数を使って野菜の種類ごとの度数、産地ごとの度数をだしてみます。

f:id:cross_hyou:20180825111708j:plain

度数の多い順に並び替えてみましょう。order関数を使います。

f:id:cross_hyou:20180825112245j:plain

これですこしわかりやすくなりましたね。なす、にら、ピーマン、きゅうり、トマトなどが多く登場していて、実えんどう、はくさい、セルリー、レタスは少ないですね。レタスが少ないのは意外でした。

産地も度数の多い順に表示しましょう。

f:id:cross_hyou:20180825112808j:plain

北海道、茨城、長野、千葉などが多く登場します。岡山は1回しか登場しません。岡山は野菜というよりは、果物なのでしょうか?

数量と価格については標準偏差もだしましょう。sd関数を使います。

f:id:cross_hyou:20180825113335j:plain

というようになりました。数量と価格ではどちらがバラツキがあるのでしょうか?

変動係数 = 標準偏差 / 平均値 を計算してみます。平均値はmean関数です。

f:id:cross_hyou:20180825114342j:plain

数量の変動係数は4.90で、価格の変動係数は0.76ですから、数量のデータのほうがバラツキが大きいことがわかります。