e-Stat(政府統計の総合窓口)のサイトに新しいデータがアップされていました。
花き産業振興須郷調査というデータです。どんなデータでしょうか?クリックしてみました。
花木類、芝、地被植物類の品目別作付面積、出荷数量、出荷額、栽培農家数のデータのようです。
クリックしてみました。
年次のデータですね。平成28年のデータをクリックしました。
複数のファイルがあるようです。この中の平成28年花木生産状況のファイルを開いてみます。
こういうデータでした。平成21年(2009年)から同様のファイルがありましたので、以下のようにデータをcsvファイルにまとめてみました。
作付面積の単位は、ha
出荷数量の単位は、千本または千鉢
出荷額の単位は、百万円
栽培農家数の単位は、戸
です。なので一番上の行、ツツジの2009年の生産状況は、作付面積は447ha、出荷数量は9,479,000本、出荷額は1,632,000,000円(16億3200万円)、栽培農家は2092戸、ということです。
このデータをR言語で分析してみましょう。read.csv関数で読込み、summary関数でデータを要約してみます。
作付面積の最小は、4haです。
によると、東京ドームの面積(グランドより外周の部分も含む)が4.7haだそうですので、最小面積の4haは東京ドームよりも狭いっていうことですね。
さて、summary関数は最小値、第1分位値、中央値、平均値、第3分位値、最大値を表示します。標準偏差は表示しないので、apply関数とsd関数を使って標準偏差を計算しましょう。
同じようにapply関数とlength関数でデータの数を出してみます。
apply関数とmean関数で各データの平均値を出してみます。
summary関数で算出した平均値と同じですね。
apply関数とmedian関数で中央値を出します。
apply関数とmin関数で最小値を出します。
apply関数とmax関数で最大値を出します。
apply関数とsum関数で合計値を出します。
以上、花き産業振興総合調査の中の生産状況の基本的なデータでした。