UnsplashのAlexander Sinnが撮影した写真
の続きです。前回は女性の入職者数と男性の入職者数の分布状況をヒストグラムにしてみました。ヒストグラムの分布形状は女性と男性で違いがあるようには見えませんでした。
今回はこれを、Rを使って確認してみます。
まずは、女性と男性の入職者数の平均値を確認します。
group_by()関数、summarize()関数、mean()関数を使います。女性の平均は、54.9で男性の平均は51.2です。
入職者数の分布形状は正規分布の形状ではありませんでしたので、シミュレーションベースで2つの平均値に違いがあるかどうかを調べます。
inferパッケージの読み込みをします。
女性の平均 - 男性の平均 を求めます。
女性の平均値のほうが男性の平均よりも3.74大きいです。
続いて、ブートストラップ法で男女差のサンプルを1000回計算します。
visualuze()関数でこの男女差のヒストグラムをみてみます。
0のところに赤い垂線を入れました。
95%の信頼区間を計算します。
95%の信頼区間は、-7.01 ~ 14.9 となりました。0を含んでいますから、女性の平均値と男性の平均値では差があるとは言えないです。
先ほどのヒストグラムに信頼区間を重ねてみます。
inferパッケージには、通常(理論ベース)のt検定をする関数のt_test()関数がありますので、こちらでも試してみます。
信頼区間が-7.47 ~ 14.9 と同じような結果になりました。
女性の入職者数の平均値と、男性の平均は違いがあるとは言えません。
ここまでの議論は都道府県別の特性を考慮していませんでした。
今度は、同じ都道府県の中での女性の入職者数と男性の入職者数に差があるかどうかを調べましょう。
同じように、inferパッケージを使ってシミュレーションベースで調べます。
fit()という関数が回帰分析の係数を求める係数です。
gender男 のestimateが-3.74となりました。これは今までの結果と同じです。
各都道府県の係数、(これは愛知県が基準ですが)があるので、グラフにしてみます。
東京都がダントツで入職者数の数が多いことがわかります。
それでは、本題に戻ってブートストラップ法でこのgender男の係数を1000回シミュレーションして求めます。
1回目のブートストラップでは、gender男の係数は、-2.26, 2回目は04.09, 3回目は-2.81となったことがわかります。
この推定結果をヒストグラムにしてみます。
0の位置に赤い垂線を置きました。
こうしてみると、同じ都道府県の中では、男女差はあるようです。
信頼区間を計算します。
信頼区間は、-6.37 ~ -1.13 と0を含んいないです。
つまり、男女差はあるということですね。
信頼区間の垂線も描きます。
今回は以上です。
次回は、
です。
初めから読むには、
です。