www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のスポーツテストのデータ分析６ - R言語で回帰分析。lm関数を使う。立ち幅跳びの優秀な都道府県はハンドボール投げも優秀。

www.crosshyou.info

の続きです。

今回はR言語のlm関数を使って回帰分析をしてみます。

男子のハンドボール投げのデータを50m走と立ち幅跳びのデータで回帰分析をしてみましょう。

head関数でdatがどういうデータフレームだったか思い出します。

f:id:cross_hyou:20201103163042p:plain

m_ballをm_50mとm_jumpで回帰分析します。

f:id:cross_hyou:20201103163642p:plain

p-valueが2.2e-16と0.05よりも小さいので有意な統計モデルです。

残差プロットを見てみます。

f:id:cross_hyou:20201103163849p:plain

f:id:cross_hyou:20201103163906p:plain

残差は適度に散らばっているのでいいと思います。

男子ハンドボール投げ = -17.25 + 1.26 0* 50m走 + 0.1446 * 立ち幅跳び

というモデル式です。

以外なのは、50m走が遅いほうがハンドボール投げは上手いということですね。

いままでは生のデータを使いました、

今度は都道府県ごとの平均値のデータを使ってみます。

head関数でdata_prefがどういうデータフレームだったか思い出します。

f:id:cross_hyou:20201103164509p:plain

data_prefは標準化したデータなどがありました。

ここでも使う変数は、m_50m, m_ball, m_jumpです。

f:id:cross_hyou:20201103164842p:plain

model2のp-valueは5.935e-08なので0.05よりも小さくて有意なモデルです。

m_50mは有意な変数では無いようですね。update関数でm_50mを削除して、anova関数で比較します。

f:id:cross_hyou:20201103165131p:plain

Pr(>F)が0.3827と0.05よりも大きいので、model2とmodel3では有意な違いはありません。

model3をsummary関数で見てみます。

f:id:cross_hyou:20201103165342p:plain

p-valueは9.686e-09と0.05よりも小さいので有意なモデルです。Interceptも削除してみましょう。

f:id:cross_hyou:20201103165555p:plain

Pr(>F)が0.2625と0.05よりも大きいので、model3とmodel4には有意な違いはありません。

model4をsummary関数で見てみましょう。

f:id:cross_hyou:20201103165855p:plain

p-valueは2.2e-16よりも小さいので有意なモデルです。

男子ハンドボール投げ = 0.1081 * 男子立ち幅跳び

というモデルです。200cmの立ち幅跳びの男子は、0.1081 * 200 = 21.62mのハンドボール投げの成績になる、というモデルです。

残差プロットを見てみます。

f:id:cross_hyou:20201103170236p:plain

f:id:cross_hyou:20201103170304p:plain

適度に散らばっているので、特に問題はないようです。

最後の男子立ち幅跳びと男子立ち幅跳びの散布図にmodel4の回帰直線を重ねます。

f:id:cross_hyou:20201103171808p:plain

f:id:cross_hyou:20201103171838p:plain

今回は以上です。