今回はこのデータの分析をしてみようと思います。
短時間労働者の1時間当たり所定内給与額及び年間賞与その他特別給与額のデータです。
ダウロードしたCSVファイルはこのような形態です。12行目に私が変数名を挿入しました。これをR言語に読み込んで、分析してみます。最終ゴールは、男女間での賃金格差があるのかないのかを調べたいと思います。
このCSVファイルをR言語に読み込みます。
はじめに、いろいろと便利なtidyverseパッケージの読み込みをしておきます。
read_csv関数でファイルを読み込みます。
読み込む前に、ファイルを
このように変更しました。
str関数でデータが読み込まれているか見てみます。
セクターの日本語名が文字化けしています。
元のファイルを見ると、regionは全て全国、yearは2009年の1年だけです。
なので、regionとyearと文字化けしてしまったsectorは不要なので削除してしまいます。
select関数をつかいます。
kiboとcodeを文字列型から、ファクター型に変更します。
男女間の賃金格差を見たいので、男女計の変数(t_で始める変数)を削除します。
summary関数でdfのサマリを見てみます。
各変数の説明をします。
kibo: 企業規模 10_99が10人から99人、100_999が100人から999人、1000_が1000人以上、allが上の3つの合計です。
code: 産業分類です。以下のとおりです。
T - 産業計
C - 鉱業,採石業,砂利採取業
D - 建設業
E - 製造業
F - 電気・ガス・熱供給・水道業
G - 情報通信業
H- 運輸業,郵便業
I - 卸売業,小売業
J - 金融業,保険業
K - 不動産業,物品賃貸業
L - 学術研究,専門・技術サービス業
M - 宿泊業,飲食サービス業
N - 生活関連サービス業,娯楽業
O - 教育,学習支援業
P - 医療,福祉
Q - 複合サービス事業
R - サービス業(他に分類されないもの)
m_は男性、f_は女性を表しています。
age: 年齢 です。
year: 勤続年数 です。
days: 実労働日数 です。
hour: 1日当たり所定内実労働時間数【時間】 です。
wage: 1時間当たり所定内給与額【円】 です。
bonus: 年間賞与その他特別給与額【千円】 です。
pop: 労働者数【十人】 です。
m_wageの平均値は 1295円、f_wageの平均値は 1017円ですから280円ぐらいの差ががあります。
m_bonusの平均値は 9万2950円、f_bonusの平均値は 5万3380円 です。4万円ぐらいの差があります。
これらの差が、企業規模、業種、年齢や勤続年数などの要因を考慮しても差があるのかどうか調べたいと思います。できるかな?
今回は以上です。
次回は
です。