crosshyou

主にクロス表(分割表)分析をしようかなと思います。

花き産業振興総合調査の分析1 - 基本統計量(summary関数, apply関数とsd関数/mean関数/median関数/min関数/max関数)

e-Stat(政府統計の総合窓口)のサイトに新しいデータがアップされていました。

f:id:cross_hyou:20180802204651j:plain

花き産業振興須郷調査というデータです。どんなデータでしょうか?クリックしてみました。

f:id:cross_hyou:20180802204738j:plain

花木類、芝、地被植物類の品目別作付面積、出荷数量、出荷額、栽培農家数のデータのようです。

クリックしてみました。

f:id:cross_hyou:20180802204929j:plain

年次のデータですね。平成28年のデータをクリックしました。

f:id:cross_hyou:20180802205007j:plain

複数のファイルがあるようです。この中の平成28年花木生産状況のファイルを開いてみます。

f:id:cross_hyou:20180802205102j:plain

こういうデータでした。平成21年(2009年)から同様のファイルがありましたので、以下のようにデータをcsvファイルにまとめてみました。

f:id:cross_hyou:20180802205331j:plain

作付面積の単位は、ha

出荷数量の単位は、千本または千鉢

出荷額の単位は、百万円

栽培農家数の単位は、戸

です。なので一番上の行、ツツジの2009年の生産状況は、作付面積は447ha、出荷数量は9,479,000本、出荷額は1,632,000,000円(16億3200万円)、栽培農家は2092戸、ということです。

このデータをR言語で分析してみましょう。read.csv関数で読込み、summary関数でデータを要約してみます。

f:id:cross_hyou:20180802210254j:plain

作付面積の最小は、4haです。

東京ドーム (単位) - Wikipedia

f:id:cross_hyou:20180802210704j:plain

によると、東京ドームの面積(グランドより外周の部分も含む)が4.7haだそうですので、最小面積の4haは東京ドームよりも狭いっていうことですね。

さて、summary関数は最小値、第1分位値、中央値、平均値、第3分位値、最大値を表示します。標準偏差は表示しないので、apply関数とsd関数を使って標準偏差を計算しましょう。

f:id:cross_hyou:20180802211414j:plain

同じようにapply関数とlength関数でデータの数を出してみます。

f:id:cross_hyou:20180802211624j:plain

apply関数とmean関数で各データの平均値を出してみます。

f:id:cross_hyou:20180802211823j:plain

summary関数で算出した平均値と同じですね。

apply関数とmedian関数で中央値を出します。

f:id:cross_hyou:20180802212512j:plain

apply関数とmin関数で最小値を出します。

f:id:cross_hyou:20180802212547j:plain

apply関数とmax関数で最大値を出します。

f:id:cross_hyou:20180802212614j:plain

apply関数とsum関数で合計値を出します。

f:id:cross_hyou:20180802212649j:plain

以上、花き産業振興総合調査の中の生産状況の基本的なデータでした。