Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

毎月勤労統計調査の分析6 - 給与の多い業種はどこか。給与の増えた業種はどこか。(order関数)

今回は、毎月勤労統計調査の2018年5月と2010年5月のデータで給与総額の業種別のランキングと、2010年と2018年の比較で給与総額増加・減少のランキングを見てみます。

まずは、csvファイルに保存してあるデータをread.csv関数で読込みましょう。

f:id:cross_hyou:20180730114052j:plain

head関数で始めの6行のデータを表示して、summary関数で各データのサマリーを表示しています。

給与総額、給与と残業、所定内給与、残業代、特別支給の各データの多い業種を見てみましょう。

データの並びかえはorder関数です。

給与総額降順 <- maikin[order(maikin$給与総額, decreasing = TRUE), ]と入力して給与総額の多い順に並び替え、1列目(業種)、3列目(年)、13行目(給与総額)だけを表示するために、head(給与総額[ , c(1,3,13)])と入力しましょう。

f:id:cross_hyou:20180730115030j:plain

金融保険、電気ガス、情報通信、学術研究が給与総額では高いですね。

でも、これでは、2018年と2010年のデータが混在してしまっているので、2018年のデータだけにしましょう。

head(給与総額降順[給与総額降順$年 == 2018, c(1, 3, 13)])としましょう。

f:id:cross_hyou:20180730115508j:plain

2018年は、金融保険、電気ガス、情報通信、学術研究、建設業、製造業の順番で給与総額が多いです。

2010年はどうでしょうか?

f:id:cross_hyou:20180730115755j:plain

2010年は、電気ガス、金融保険、情報通信、学術研究、鉱業採石業、複合サービスの順番でした。

次に、給与総額の低い業種を見てみましょう。

f:id:cross_hyou:20180730120323j:plain

2018年は、宿泊飲食、生活関連、その他サービス、卸売小売、医療福祉、運輸郵便の順番で給与総額が少ないです。2010年はどうでしょうか?

f:id:cross_hyou:20180730120601j:plain

2010年は、宿泊飲食、生活関連、卸売小売、その他サービス、医療福祉、運輸郵便の順番でした。卸売小売とその他サービスの順番が入れ替わっただけですね。

こんどは、2010年と比較して2018年がどれだけ増加・減少したかを調べましょう。

まずは、2018年だけのデータフレーム、2010年だけのデータフレームをsubset関数で作ります。

f:id:cross_hyou:20180730121052j:plain

これが2018年です。

f:id:cross_hyou:20180730121117j:plain

これが2010年です。

そして、2018年の給与総額 - 2010年の給与総額を計算します。

f:id:cross_hyou:20180730121405j:plain

このままでは、どの値がどの業種かわからないので、業種を加えてデータフレームを作ります。

f:id:cross_hyou:20180730121651j:plain

こうなりました。あとは、このデータフレームを給与総額で並び替えれば完了です。

f:id:cross_hyou:20180730122004j:plain

金融保険は、9万円以上も増えています。電気ガス、鉱業採石業、複合サービス、その他サービス、教育学習支援、生活関連は2018年のほうが2010年よりも少ないです。