の続きです。
今回はR言語のlm関数を使って回帰分析をしてみます。
男子のハンドボール投げのデータを50m走と立ち幅跳びのデータで回帰分析をしてみましょう。
head関数でdatがどういうデータフレームだったか思い出します。
m_ballをm_50mとm_jumpで回帰分析します。
p-valueが2.2e-16と0.05よりも小さいので有意な統計モデルです。
残差プロットを見てみます。
残差は適度に散らばっているのでいいと思います。
男子ハンドボール投げ = -17.25 + 1.26 0* 50m走 + 0.1446 * 立ち幅跳び
というモデル式です。
以外なのは、50m走が遅いほうがハンドボール投げは上手いということですね。
いままでは生のデータを使いました、
今度は都道府県ごとの平均値のデータを使ってみます。
head関数でdata_prefがどういうデータフレームだったか思い出します。
data_prefは標準化したデータなどがありました。
ここでも使う変数は、m_50m, m_ball, m_jumpです。
model2のp-valueは5.935e-08なので0.05よりも小さくて有意なモデルです。
m_50mは有意な変数では無いようですね。update関数でm_50mを削除して、anova関数で比較します。
Pr(>F)が0.3827と0.05よりも大きいので、model2とmodel3では有意な違いはありません。
model3をsummary関数で見てみます。
p-valueは9.686e-09と0.05よりも小さいので有意なモデルです。Interceptも削除してみましょう。
Pr(>F)が0.2625と0.05よりも大きいので、model3とmodel4には有意な違いはありません。
model4をsummary関数で見てみましょう。
p-valueは2.2e-16よりも小さいので有意なモデルです。
男子ハンドボール投げ = 0.1081 * 男子立ち幅跳び
というモデルです。200cmの立ち幅跳びの男子は、0.1081 * 200 = 21.62mのハンドボール投げの成績になる、というモデルです。
残差プロットを見てみます。
適度に散らばっているので、特に問題はないようです。
最後の男子立ち幅跳びと男子立ち幅跳びの散布図にmodel4の回帰直線を重ねます。
今回は以上です。