の続きです。
前回はR言語gather関数とinner_join関数でロング型のデータフレームを作りました。
そのデータフレームにもう少し手を加えます。
このデータフレームは、企業規模にallという全部のものと産業コードにTという全産業というものが入っています。これらを削除します。
しかし、何故か上の画像のように、df_long$code == "T"としても全部FALSEになってしまってうまくTだけを特定できないんですよね。。なんでだろうか?
しょうがないので、Tがファクタ水準の何番目かを確認して、(17番目でした)、17番目のファクタをtとして、tでフィルタをかけました。
kiboからallというファクター水準を、codeからTというファクター水準を削除しました。as.character関数で一回文字列型に戻してから、再びas.factor関数でファクター型に変更しています。
これで分析の準備が整いました。
ggplot2パッケージのグラフを使って、wage: 1時間当たり所定内給与額とその他の変数の関係を視覚化しましょう。
まずは、kibo: 企業規模との関係です。
男女で見ると、女性のほうが低いですが、企業規模の違いはそれほど大きくないようです。
次は、産業別のwageです。
mutate関数でcodeをwageの平均値の順番に並べてから、グラフにしています。産業別に違いはありますが、どの産業も明らかに女性のほうが給与額が低いですね。
1番給与額の低いのは、Mの宿泊業、飲食サービス業です。
1番給与額の高いのは、Oの教育、学習支援業です。
C、鉱業、採石業、砂利採取業は男女の差が大きいですね。
age: 年齢との関係を見てみます。
geom_point関数で散布図を描いて、さらにgeom_smooth関数で線形回帰の回帰直線を重ねました。興味深いことに、男性は年齢が上がるにつれて給与額が増えているのに、女性は減っています。このグラフでも女性のほうが給与額は低いですね。
year: 勤続年数との関係はどうでしょうか?
男性のほうは勤続年数が長いほど給与額が多い傾向があります。女性は横ばいという感じです。このグラフでも女性のほうが低いですね。
days: 実労働日数との関係を見てみましょう。
実労働日数が長いほど、給与額は低いという傾向があります。
女性のほうが低いですね。
hour: 1日当り労働時間との関係はどうでしょうか?
1日の労働時間が長いほうが給与額は高いようです。ただし、女性はそのような傾向は弱く、ほぼ横ばいですね。そして、女性のほうが給与額は低いです。
pop: 労働者数との関係をみてみます。
労働者数はバラツキが大きいのでlog関数で対数にしてからグラフにしました。労働者数が多いほど給与額は低いですね。
最後に参考としてbunus: 年間賞与その他との関係もみてみます。
当たり前といえばあたりまえですが、賞与が多いところは給与額も高いですね。
このグラフでも女性の給与額は低いですね。
今回は以上です。
次回は
です。
はじめから読むには、
です。