の続きです。
今回は東日本と西日本、日本海側と太平洋側での違いはあるのかどうかを調べてみます。
こういうふうに都道府県を分類したファイルを用意しました。新潟県までは東日本にしました。
また、海の無い件や北海道や兵庫県、福岡県、沖縄県はその他にしました。
このファイルをread_csv関数でR言語に読み込みます。
head関数で表示してみます。
regionは地域です。北海道東北、関東、北陸、東海、近畿、中国、四国、九州沖縄の8つです。
eastwestが東日本と西日本の2つ、japanpacificが日本海側、太平洋側、その他の3つです。
こうして読み込んだbunruiをdata_prefと結合します。inner_join関数を使います。
うまく結合できたか見てみましょう。
うまく結合できているようです。
今回は、total_scoreに焦点を絞ってみましょう。
東日本と西日本で別々に箱ひげ図を描いてみます。
両者に違いがあるとは言えなさそうですね。
日本海側、太平洋側、その他ではどうでしょうか?
日本海側はその他、太平洋側よりもスコアが高いですね。
東日本と西日本でtotal_scoreに違いがあるかどうか検定します。

Statistics: An Introduction Using R (English Edition)
- 作者:Crawley, Michael J.
- 発売日: 2014/09/23
- メディア: Kindle版
こちらを参考にします。
まず、東日本のトータルスコア、西日本のトータルスコアのベクトルを作ります。
まず、var.test関数でそれぞれのvarianceを比較します。
p-valueが0.1957と0.05よりも大きいので、両者のvarianceに違いがあるとは言えません。なので、平均値をt.test関数で比較できます。
p-valueが0.936と0.05よりも大きいので、両者の平均値(東日本は-0.224, 西日本は-0.088)に有意な違いがあるとは言えません。
結論としては、東日本と西日本ではスポーツテストの成績に有意な違いはあるとは言えないということです。
日本海側、太平洋側、その他では違いがあると言えるでしょうか?3つの地域がありますので、ANOVA分析になります。
aov関数とsummary関数でANOVA分析をします。
Pr(>F)が0.0352と0.05よりも小さいです。つまり、日本海側、太平洋側、その他という3つの地域の違いは、total_scoreに有意な違いをもたらしているということです。
summary関数のかわりにsummary.lm関数で確認します。
InterceptのEstimateの値は-1.5074ですが、これは、その他の都道府県のtotal_scoreの平均値が-1.5074だということです。太平洋側の平均値は-1.5074に0.5109を加えた、-0.9965です。日本海側は、2.9424です。日本海側は、箱ひげ図で見えたように、他の2地域と比べてスポーツテストの成績はいいようですね。
今回は以上です。