短時間労働者の給与のデータの分析１ - R言語にCSVファイルを読み込ませて、データを整える。

f:id:cross_hyou:20210401112453p:plain

賃金構造基本統計調査平成21年賃金構造基本統計調査短時間労働者都道府県別1 短時間労働者の1時間当たり所定内給与額及び年間賞与その他特別給与額全国 | 統計表・グラフ表示 | 政府統計の総合窓口 (e-stat.go.jp)

今回はこのデータの分析をしてみようと思います。

短時間労働者の1時間当たり所定内給与額及び年間賞与その他特別給与額のデータです。

f:id:cross_hyou:20210401114913p:plain

ダウロードしたCSVファイルはこのような形態です。12行目に私が変数名を挿入しました。これをR言語に読み込んで、分析してみます。最終ゴールは、男女間での賃金格差があるのかないのかを調べたいと思います。

このCSVファイルをR言語に読み込みます。

はじめに、いろいろと便利なtidyverseパッケージの読み込みをしておきます。

f:id:cross_hyou:20210401113414p:plain

read_csv関数でファイルを読み込みます。

読み込む前に、ファイルを

f:id:cross_hyou:20210401115816p:plain

このように変更しました。

f:id:cross_hyou:20210401115156p:plain

str関数でデータが読み込まれているか見てみます。

f:id:cross_hyou:20210401115949p:plain

セクターの日本語名が文字化けしています。

元のファイルを見ると、regionは全て全国、yearは2009年の1年だけです。

なので、regionとyearと文字化けしてしまったsectorは不要なので削除してしまいます。

select関数をつかいます。

f:id:cross_hyou:20210401120423p:plain

kiboとcodeを文字列型から、ファクター型に変更します。

f:id:cross_hyou:20210401121016p:plain

男女間の賃金格差を見たいので、男女計の変数(t_で始める変数)を削除します。

f:id:cross_hyou:20210401121356p:plain

summary関数でdfのサマリを見てみます。

f:id:cross_hyou:20210401121546p:plain

各変数の説明をします。

kibo: 企業規模 10_99が10人から99人、100_999が100人から999人、1000_が1000人以上、allが上の3つの合計です。

code: 産業分類です。以下のとおりです。

Ｔ - 産業計
Ｃ - 鉱業，採石業，砂利採取業
Ｄ - 建設業
Ｅ - 製造業
Ｆ - 電気・ガス・熱供給・水道業
Ｇ - 情報通信業
Ｈ- 運輸業，郵便業
Ｉ - 卸売業，小売業
Ｊ - 金融業，保険業
Ｋ - 不動産業，物品賃貸業
Ｌ - 学術研究，専門・技術サービス業
Ｍ - 宿泊業，飲食サービス業
Ｎ - 生活関連サービス業，娯楽業
Ｏ - 教育，学習支援業
Ｐ - 医療，福祉
Ｑ - 複合サービス事業
Ｒ - サービス業（他に分類されないもの）

m_は男性、f_は女性を表しています。

age: 年齢です。

year: 勤続年数です。

days: 実労働日数です。

hour: 1日当たり所定内実労働時間数【時間】です。

wage: １時間当たり所定内給与額【円】です。

bonus: 年間賞与その他特別給与額【千円】です。

pop: 労働者数【十人】です。

m_wageの平均値は 1295円、f_wageの平均値は 1017円ですから280円ぐらいの差ががあります。

m_bonusの平均値は 9万2950円、f_bonusの平均値は 5万3380円です。4万円ぐらいの差があります。

これらの差が、企業規模、業種、年齢や勤続年数などの要因を考慮しても差があるのかどうか調べたいと思います。できるかな？

今回は以上です。