前回の分析データは、2018年5月の各業種(大分類)のトータルだけでした。これではあまり面白くないので、2010年5月のデータも加えて分析することにしました。
そこでもう一度、データをread.csv関数で読込みしなおしてhead関数、summary関数を走らせてみましょう。
のちのちの分析で必要になるかもしれないので、2018年だけのデータフレーム、2010年だけのデータフレームを作成しておきましょう。subset関数を使います。
年のところを見ると、すべて2018になっているので、2018年だけのデータフレームであることがわかります。
こちらの年のところは、2010だけですので、2010年だけのデータフレームだとわかります。
給与総額の平均値(Mean)の値を見てみましょう。
2018年は、31万2121円です。
2010年は、30万4350円です。
2018年のほうが給与総額が増えていますね。
これは、もともとのデータフレームでtapply関数を使ってもできます。
tapply関数(処理するデータ, グループ分けのデータ, 処理する関数)
という構文です。