Bing Image Creator から作成:Clean River
このポストは上のポストの続きです。
前回の分析では、都道府県別で見たとき、男性の入職者数と女性の入職者数には違いがある、ということがわかりました。
今回は、年によって入職者数に違いがあるかどうかを調べましょう。
2014年から2020年までの7年間のデータです。あまり違いは無いように見えます。
group_by()関数、summarize()関数、mean()関数で年別の平均値をみてみます。
一番大きな値は107で、一番少ない値は99.8でした。
この平均値の違いは統計的に有意なものでしょうか?
複数のグループ間で平均値に違いがあるかどうかは、ANOVA分析です。
今回もtheory-baseのANOVAではなくて、simulation-baseのANOVA分析をします。
参考にしたウェブサイトは、Tidy ANOVA (Analysis of Variance) with infer • infer
(https://infer.netlify.app/articles/anova) です。
それでは、F値を計算します。
F値は、0.0528となりました。
次は、年と入職者数は関係ないという仮定の下でのF値の分布を生成します。
こうして生成したF値のnull_distrobutionと実際のサンプルのF値をグラフにしてみます。
赤い垂線がサンプルのF値の値です。このグラフを見ると、明らかに年によって入職者数には違いは無いとわかります。
p値を計算してみます。
p値が0.999なので、年によって入職者数に違いが無いことがわかりました。
これは、47都道府県を一つの塊としてみたときの結論です。
前回のポストと同じように、都道府県別の違いを考慮に入れたらどうなるでしょうか?
inferパッケージのワークフローでは、2つの説明変数のANOVAはできないようなので、
aov()関数でtheory-baseのANOVAをやってみました。
yearの行のPr(>F)の値、0.178がp値です。0.05よりも大きな値ですから、都道府県別の違いを考慮にいれてもなお、年による違いはあるとはいえません。
今回は以上です。
次回は
です。
初めから読むには、
です。