Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の雇用動向調査のデータ分析6 - 男性と女性で若年層、老年層の入職者比率に違いはあるのか?

Bing Image Creatorから生成(Natural Rainforest and a Bird)

www.crosshyou.info

このポストは上のポストの続きです。

前回のポストで、若年層の入職者比率では男女の違いはなさそうでしたが、老年層の入職者比率では違いがありそうでした。

今回はもう少し詳しく調べます。

まず、分析用のデータフレームを作成します。

pivot_wider()関数で、young_男、young_女、elder_男、elder_女という4つの変数を作りました。

そして、

mutate()関数で、young:若年層の入職者比率の男女差の変数として、young_diffを作成して、elder:老年層の入職者比率の男女差の変数として、elder_diffを作成しました。

それぞれの値の大きなところ、小さなところを見てみます。

young_diffの小さいところ、つまり若年層の入職者比率で、女性のほうが大きいところは、熊本県、福井県、岐阜県、沖縄県、奈良県、京都府、和歌山県、山形県です。

young_diffの大きいところ、つまり若年層の入職者比率で、男性のほうが大きいところは、沖縄県、岡山県、宮崎県、香川県、長崎県、山形県、佐賀県、福岡県でした。

elder_diffの小さいところ、つまり老年層の入職者比率で女性のほうが大きいところは、和歌山県、宮崎県、島根県、青森県、富山県、沖縄県、長野県、鳥取県、佐賀県でした。

elder_diffの大きいところ、つまり老年層の入職者比率で男性のほうが大きいところは、山口県、和歌山県、京都府、香川県、岩手県、佐賀県、群馬県、石川県、熊本県でした。

ヒストグラムで分布を見てみましょう。

young_diffのヒストグラムは、0のところを中心にした分布です。この分布を見る感じでは、男女差に違いはないようです。

elder_diffのヒストグラムは、0よりも右側に分布の中心があります。

続いて、inferパッケージのワークフローでyoung_diff, elder_diffの平均値を求めます。

young_diffの平均値は0.00553, elder_diffの平均値は0.0909です。

次は、ブートストラップ法で平均値をそれぞれ1000個生成します。

そうしたら、この1000個の平均値のセットから信頼区間を計算します。

young_diffの平均値の信頼区間は0を含んでいますが、elder_diffの平均値の信頼区間は0を含んでいないです。

つまり、youngのほうは性別で差は無いですが、elderのほうは性別で差があり、男性のほうが大きいです。

最後に、ブートストラップ法で生成した平均値の分布、実際の平均値、平均値の信頼区間をグラフにします。

まずは、young_diffのほうから。

信頼区間が0を含んでいることがわかります。

elder_diffを視覚化します。

信頼区間が0を含んでいないことがわかります。

今回は以上です。

次回は

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。