Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

毎月勤労統計調査の分析V2_6 - 産業の大分類を性別や規模、勤務形態でもう少し細かく診てみる。

前回の分析では、産業の大分類ベースでは、時給とパート比率は逆相関の関係があることがわかりました。今回は産業の大分類ベースで企業規模別にしてみようと思います。

まずは、CSVファイルに分類してるデータをR言語に読込ませます。read.csv関数です。

f:id:cross_hyou:20180927152450j:plain

データの種類としては、行番号、業種、業種コード、規模、性別、形態、六月末人数、増加人数、減少人数、七月末人数、パート人数、出勤日数、総労働時間、所定内労働時間、所定外労働時間、給与総額、定期給与、所定内給与、超過労働給与、特別支払給与、の20種類です。

業種が調査産業計も大分類も中分類も特掲産業もごちゃ混ぜになっていました。なので、まずは中分類だけのデータセットを作りましょう。

f:id:cross_hyou:20180927154019j:plain

このようなコマンドです。data$業種コード=="C" | data$業種コード=="D" と条件と条件を | でつなげるとOR検索になります。

規模をちょっと見てみましょう。table関数を使います。

f:id:cross_hyou:20180927154232j:plain

規模をよく見ると、5人以上、30人以上、500人以上、1000人以上という「以上」で区分されているものと、5-29人、30-99人、100-499人、500-999人とレンジで区分されているものが混ざっています。なので、希望は5-29人、30-99人、100-499人、500-999人、1000人以上と人数が混ざらないものだけにしましょう。

f:id:cross_hyou:20180927154836j:plain

性別を見てみましょう。table関数を使います。

f:id:cross_hyou:20180927155008j:plain

男女合計を除きましょう。

f:id:cross_hyou:20180927155156j:plain

形態の種類を見てみましょう。table関数です。

f:id:cross_hyou:20180927155625j:plain

あ、パートと一般が無くなって合計だけになりました。パートと一般は区別して分析したいので、男女合計を除いたのが余計だったのですね。なので、男女合計を除くコマンドの前までのコマンドをもう一度走らせます。

f:id:cross_hyou:20180927155939j:plain

これでいいでしょう。

それでは、七月末の人数が一番多いのはどのような業種、規模、性別、形態なのかorder関数で並び替えてみましょう。

f:id:cross_hyou:20180927160438j:plain

卸売小売で規模は5-29人、性別は男女合計、勤務形態も一般とパートの合計が515万人で一番多いですね。

給与総額が多いのはどこでしょうか?

f:id:cross_hyou:20180927160906j:plain

おお~~!建設業、1000人以上、男、合計が150万6745円です!七月はボーナスが出たからだと思いますが、すごいですね!

そうだ、人数の少ないセグメント、給与総額の少ないセグメントも確認しましょう。

order関数で小さい順に並び替えるのは面倒なので、tail関数を使いましょう。

f:id:cross_hyou:20180927161404j:plain

あら、NAになってますね。。。na.omit関数でNAの列は削除してしまいましょう。

f:id:cross_hyou:20180927162014j:plain

鉱業、採石、砂利採取が少ないですね。。。

給与総額はどうでしょうか?

f:id:cross_hyou:20180927162306j:plain

宿泊飲食サービスなどのサービス業の給与総額が少ないのですね。。