今回は、毎月勤労統計調査の2018年5月と2010年5月のデータで給与総額の業種別のランキングと、2010年と2018年の比較で給与総額増加・減少のランキングを見てみます。
まずは、csvファイルに保存してあるデータをread.csv関数で読込みましょう。
head関数で始めの6行のデータを表示して、summary関数で各データのサマリーを表示しています。
給与総額、給与と残業、所定内給与、残業代、特別支給の各データの多い業種を見てみましょう。
データの並びかえはorder関数です。
給与総額降順 <- maikin[order(maikin$給与総額, decreasing = TRUE), ]と入力して給与総額の多い順に並び替え、1列目(業種)、3列目(年)、13行目(給与総額)だけを表示するために、head(給与総額[ , c(1,3,13)])と入力しましょう。
金融保険、電気ガス、情報通信、学術研究が給与総額では高いですね。
でも、これでは、2018年と2010年のデータが混在してしまっているので、2018年のデータだけにしましょう。
head(給与総額降順[給与総額降順$年 == 2018, c(1, 3, 13)])としましょう。
2018年は、金融保険、電気ガス、情報通信、学術研究、建設業、製造業の順番で給与総額が多いです。
2010年はどうでしょうか?
2010年は、電気ガス、金融保険、情報通信、学術研究、鉱業採石業、複合サービスの順番でした。
次に、給与総額の低い業種を見てみましょう。
2018年は、宿泊飲食、生活関連、その他サービス、卸売小売、医療福祉、運輸郵便の順番で給与総額が少ないです。2010年はどうでしょうか?
2010年は、宿泊飲食、生活関連、卸売小売、その他サービス、医療福祉、運輸郵便の順番でした。卸売小売とその他サービスの順番が入れ替わっただけですね。
こんどは、2010年と比較して2018年がどれだけ増加・減少したかを調べましょう。
まずは、2018年だけのデータフレーム、2010年だけのデータフレームをsubset関数で作ります。
これが2018年です。
これが2010年です。
そして、2018年の給与総額 - 2010年の給与総額を計算します。
このままでは、どの値がどの業種かわからないので、業種を加えてデータフレームを作ります。
こうなりました。あとは、このデータフレームを給与総額で並び替えれば完了です。
金融保険は、9万円以上も増えています。電気ガス、鉱業採石業、複合サービス、その他サービス、教育学習支援、生活関連は2018年のほうが2010年よりも少ないです。