Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の雇用動向調査のデータ分析4 - Rのinferパッケージのワークフローで、ANOVA分析。年によって入職者数に違いがあるとは言えない。

Bing Image Creator から作成:Clean River

www.crosshyou.info

このポストは上のポストの続きです。

前回の分析では、都道府県別で見たとき、男性の入職者数と女性の入職者数には違いがある、ということがわかりました。

今回は、年によって入職者数に違いがあるかどうかを調べましょう。

2014年から2020年までの7年間のデータです。あまり違いは無いように見えます。

group_by()関数、summarize()関数、mean()関数で年別の平均値をみてみます。

一番大きな値は107で、一番少ない値は99.8でした。

この平均値の違いは統計的に有意なものでしょうか?

複数のグループ間で平均値に違いがあるかどうかは、ANOVA分析です。

今回もtheory-baseのANOVAではなくて、simulation-baseのANOVA分析をします。

参考にしたウェブサイトは、Tidy ANOVA (Analysis of Variance) with infer • infer

(https://infer.netlify.app/articles/anova) です。

それでは、F値を計算します。

F値は、0.0528となりました。

次は、年と入職者数は関係ないという仮定の下でのF値の分布を生成します。

こうして生成したF値のnull_distrobutionと実際のサンプルのF値をグラフにしてみます。

赤い垂線がサンプルのF値の値です。このグラフを見ると、明らかに年によって入職者数には違いは無いとわかります。

p値を計算してみます。

p値が0.999なので、年によって入職者数に違いが無いことがわかりました。

これは、47都道府県を一つの塊としてみたときの結論です。

前回のポストと同じように、都道府県別の違いを考慮に入れたらどうなるでしょうか?

inferパッケージのワークフローでは、2つの説明変数のANOVAはできないようなので、

aov()関数でtheory-baseのANOVAをやってみました。

yearの行のPr(>F)の値、0.178がp値です。0.05よりも大きな値ですから、都道府県別の違いを考慮にいれてもなお、年による違いはあるとはいえません。

今回は以上です。

次回は

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。