Bing Image Creatorから生成(Natural Rainforest and a Bird)
このポストは上のポストの続きです。
前回のポストで、若年層の入職者比率では男女の違いはなさそうでしたが、老年層の入職者比率では違いがありそうでした。
今回はもう少し詳しく調べます。
まず、分析用のデータフレームを作成します。
pivot_wider()関数で、young_男、young_女、elder_男、elder_女という4つの変数を作りました。
そして、
mutate()関数で、young:若年層の入職者比率の男女差の変数として、young_diffを作成して、elder:老年層の入職者比率の男女差の変数として、elder_diffを作成しました。
それぞれの値の大きなところ、小さなところを見てみます。
young_diffの小さいところ、つまり若年層の入職者比率で、女性のほうが大きいところは、熊本県、福井県、岐阜県、沖縄県、奈良県、京都府、和歌山県、山形県です。
young_diffの大きいところ、つまり若年層の入職者比率で、男性のほうが大きいところは、沖縄県、岡山県、宮崎県、香川県、長崎県、山形県、佐賀県、福岡県でした。
elder_diffの小さいところ、つまり老年層の入職者比率で女性のほうが大きいところは、和歌山県、宮崎県、島根県、青森県、富山県、沖縄県、長野県、鳥取県、佐賀県でした。
elder_diffの大きいところ、つまり老年層の入職者比率で男性のほうが大きいところは、山口県、和歌山県、京都府、香川県、岩手県、佐賀県、群馬県、石川県、熊本県でした。
ヒストグラムで分布を見てみましょう。
young_diffのヒストグラムは、0のところを中心にした分布です。この分布を見る感じでは、男女差に違いはないようです。
elder_diffのヒストグラムは、0よりも右側に分布の中心があります。
続いて、inferパッケージのワークフローでyoung_diff, elder_diffの平均値を求めます。
young_diffの平均値は0.00553, elder_diffの平均値は0.0909です。
次は、ブートストラップ法で平均値をそれぞれ1000個生成します。
そうしたら、この1000個の平均値のセットから信頼区間を計算します。
young_diffの平均値の信頼区間は0を含んでいますが、elder_diffの平均値の信頼区間は0を含んでいないです。
つまり、youngのほうは性別で差は無いですが、elderのほうは性別で差があり、男性のほうが大きいです。
最後に、ブートストラップ法で生成した平均値の分布、実際の平均値、平均値の信頼区間をグラフにします。
まずは、young_diffのほうから。
信頼区間が0を含んでいることがわかります。
elder_diffを視覚化します。
信頼区間が0を含んでいないことがわかります。
今回は以上です。
次回は
です。
初めから読むには、
です。