crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別のスポーツテストのデータ分析7 - 東日本と西日本、日本海側と太平洋側での違いはあるか?

 

www.crosshyou.info

 の続きです。

今回は東日本と西日本、日本海側と太平洋側での違いはあるのかどうかを調べてみます。

f:id:cross_hyou:20201107092130p:plain

こういうふうに都道府県を分類したファイルを用意しました。新潟県までは東日本にしました。

また、海の無い件や北海道や兵庫県、福岡県、沖縄県はその他にしました。

このファイルをread_csv関数でR言語に読み込みます。

f:id:cross_hyou:20201107092654p:plain

head関数で表示してみます。

f:id:cross_hyou:20201107092836p:plain

regionは地域です。北海道東北、関東、北陸、東海、近畿、中国、四国、九州沖縄の8つです。

eastwestが東日本と西日本の2つ、japanpacificが日本海側、太平洋側、その他の3つです。

こうして読み込んだbunruiをdata_prefと結合します。inner_join関数を使います。

f:id:cross_hyou:20201107093328p:plain

うまく結合できたか見てみましょう。

f:id:cross_hyou:20201107093508p:plain

うまく結合できているようです。

今回は、total_scoreに焦点を絞ってみましょう。

東日本と西日本で別々に箱ひげ図を描いてみます。

f:id:cross_hyou:20201107094046p:plain

f:id:cross_hyou:20201107094103p:plain

両者に違いがあるとは言えなさそうですね。

日本海側、太平洋側、その他ではどうでしょうか?

f:id:cross_hyou:20201107094456p:plain

f:id:cross_hyou:20201107094515p:plain

日本海側はその他、太平洋側よりもスコアが高いですね。

東日本と西日本でtotal_scoreに違いがあるかどうか検定します。

 

Statistics: An Introduction Using R (English Edition)

Statistics: An Introduction Using R (English Edition)

 

 こちらを参考にします。

まず、東日本のトータルスコア、西日本のトータルスコアのベクトルを作ります。

f:id:cross_hyou:20201107095349p:plain

まず、var.test関数でそれぞれのvarianceを比較します。

f:id:cross_hyou:20201107095733p:plain

p-valueが0.1957と0.05よりも大きいので、両者のvarianceに違いがあるとは言えません。なので、平均値をt.test関数で比較できます。

f:id:cross_hyou:20201107100136p:plain

p-valueが0.936と0.05よりも大きいので、両者の平均値(東日本は-0.224, 西日本は-0.088)に有意な違いがあるとは言えません。

結論としては、東日本と西日本ではスポーツテストの成績に有意な違いはあるとは言えないということです。

日本海側、太平洋側、その他では違いがあると言えるでしょうか?3つの地域がありますので、ANOVA分析になります。

aov関数とsummary関数でANOVA分析をします。

f:id:cross_hyou:20201107100955p:plain

Pr(>F)が0.0352と0.05よりも小さいです。つまり、日本海側、太平洋側、その他という3つの地域の違いは、total_scoreに有意な違いをもたらしているということです。

summary関数のかわりにsummary.lm関数で確認します。

f:id:cross_hyou:20201107101512p:plain

InterceptのEstimateの値は-1.5074ですが、これは、その他の都道府県のtotal_scoreの平均値が-1.5074だということです。太平洋側の平均値は-1.5074に0.5109を加えた、-0.9965です。日本海側は、2.9424です。日本海側は、箱ひげ図で見えたように、他の2地域と比べてスポーツテストの成績はいいようですね。

今回は以上です。