Generated by Bing Imae Creator:realistic photo of a Chimonanthus praecox
の続きです。前回までで、だいたいの睡眠時間の様子がわかりましたので、今回は男性と女性で睡眠時間に差があるのかどうかを調べてみましょう。
平均値の違いは、Rのt.test()関数で簡単に実行可能です。
まずは、m10:10歳以上男子とf10:10歳以上女子を比べます。
mean of x が475.0496で、mean of yが459.8014です。xはm10で、yはf10です。男子のほうが睡眠時間が長く、その差の95%信頼区間は13.45013~17.04632ですので、0を含んでいません。p-valueは2.2e-16とほとんどゼロです。
結論は、10歳以上男子と10歳以上女子の睡眠時間の平均値には、統計的に有意な差がある、ということです。
この調子で他のカテゴリも比較しましょう。
m15:15歳以上男子とf15:15歳以上女子はどうでしょうか?
m15の睡眠時間の平均値は472時間、f15の睡眠時間の平均値は457時間で、これも統計的に有意な差があります。
mw:有業者男子とfw:有業者女子はどうでしょうか?
mwの睡眠時間の平均値は460時間で、fwの睡眠時間の平均値は439時間で、これも統計的に有意な差があります。
最後は、mnw:無業者男子とfnw:無業者女子です。
mnwの睡眠時間の平均値は507時間、fnwの睡眠時間の平均値は478時間で、これも統計的に有意な差、女子のほうが睡眠時間が短いとわかりました。
以上から、日本では、男子よりも女子のほうが睡眠時間は短い傾向があるようです。
次は、2001年、2006年、2011年で睡眠時間に違いがあるか?を調べましょう。
まず、group_by()関数とsummarize()関数とmean()関数で年ごとの平均値を確認します。
2001年は471分、2006年は468分、2011年は467分です。違いはなさそうですね。
2つの平均値でなくて、3つ以上の平均値の比較なので、ANOVA分析の手法を使います。
今回は、Tidy ANOVA (Analysis of Variance) with infer • infer の記事を参考にして、inferパッケージを使ったワークフローでANOVA分析をしてみましょう。
inferパッケージの読み込みをします。
次は、F値の計算します。
F値は3.49でした。
次にsleepとyearは関係ないという仮定の下でのF値の分布を生成します。
次は、生成されたF値の分布と実際のF値をグラフにして比較します。
赤い垂線の位置が実際のF値の位置です。こうしてみると、実際のF値は結構珍しい値なのかもしれませんね。
p-valueを計算します。
p値は0.0272と5%以下でした。つまり、5%有意水準で、年によって水準の平均値に違いがある、ということです。
2001年の471分と2011年の467分に違いがあるのですかね?
この2つデータで、t.test()関数をやってみましょう。
p-valueが0.01207と0.05と0.05よりも小さいですね。
女子のほうが睡眠時間が短いこと、2001年よりも2011年のほうが、(4分ほどですが)睡眠時間が短いことがわかりました。
今回は以上です。
次回は、
です。
初めから読むには、
です。