Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

毎月勤労統計調査の分析2 - 基本統計量 2018年5月と2010年5月(summary関数, subset関数, tapply関数, mean関数)

前回の分析データは、2018年5月の各業種(大分類)のトータルだけでした。これではあまり面白くないので、2010年5月のデータも加えて分析することにしました。

そこでもう一度、データをread.csv関数で読込みしなおしてhead関数、summary関数を走らせてみましょう。

f:id:cross_hyou:20180725124339j:plain

のちのちの分析で必要になるかもしれないので、2018年だけのデータフレーム、2010年だけのデータフレームを作成しておきましょう。subset関数を使います。

f:id:cross_hyou:20180725124657j:plain

年のところを見ると、すべて2018になっているので、2018年だけのデータフレームであることがわかります。

f:id:cross_hyou:20180725125107j:plain

こちらの年のところは、2010だけですので、2010年だけのデータフレームだとわかります。

給与総額の平均値(Mean)の値を見てみましょう。

2018年は、31万2121円です。

2010年は、30万4350円です。

2018年のほうが給与総額が増えていますね。

これは、もともとのデータフレームでtapply関数を使ってもできます。

f:id:cross_hyou:20180725130046j:plain

tapply関数(処理するデータ, グループ分けのデータ, 処理する関数)

という構文です。