前回の分析では、産業の大分類ベースでは、時給とパート比率は逆相関の関係があることがわかりました。今回は産業の大分類ベースで企業規模別にしてみようと思います。
まずは、CSVファイルに分類してるデータをR言語に読込ませます。read.csv関数です。
データの種類としては、行番号、業種、業種コード、規模、性別、形態、六月末人数、増加人数、減少人数、七月末人数、パート人数、出勤日数、総労働時間、所定内労働時間、所定外労働時間、給与総額、定期給与、所定内給与、超過労働給与、特別支払給与、の20種類です。
業種が調査産業計も大分類も中分類も特掲産業もごちゃ混ぜになっていました。なので、まずは中分類だけのデータセットを作りましょう。
このようなコマンドです。data$業種コード=="C" | data$業種コード=="D" と条件と条件を | でつなげるとOR検索になります。
規模をちょっと見てみましょう。table関数を使います。
規模をよく見ると、5人以上、30人以上、500人以上、1000人以上という「以上」で区分されているものと、5-29人、30-99人、100-499人、500-999人とレンジで区分されているものが混ざっています。なので、希望は5-29人、30-99人、100-499人、500-999人、1000人以上と人数が混ざらないものだけにしましょう。
性別を見てみましょう。table関数を使います。
男女合計を除きましょう。
形態の種類を見てみましょう。table関数です。
あ、パートと一般が無くなって合計だけになりました。パートと一般は区別して分析したいので、男女合計を除いたのが余計だったのですね。なので、男女合計を除くコマンドの前までのコマンドをもう一度走らせます。
これでいいでしょう。
それでは、七月末の人数が一番多いのはどのような業種、規模、性別、形態なのかorder関数で並び替えてみましょう。
卸売小売で規模は5-29人、性別は男女合計、勤務形態も一般とパートの合計が515万人で一番多いですね。
給与総額が多いのはどこでしょうか?
おお~~!建設業、1000人以上、男、合計が150万6745円です!七月はボーナスが出たからだと思いますが、すごいですね!
そうだ、人数の少ないセグメント、給与総額の少ないセグメントも確認しましょう。
order関数で小さい順に並び替えるのは面倒なので、tail関数を使いましょう。
あら、NAになってますね。。。na.omit関数でNAの列は削除してしまいましょう。
鉱業、採石、砂利採取が少ないですね。。。
給与総額はどうでしょうか?
宿泊飲食サービスなどのサービス業の給与総額が少ないのですね。。