Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

ラグビー リーグワン のデータの分析2 - 線形モデルでの予測

www.crosshyou.info

の続きです。前回はCSVファイルのデータをRに読み込ませるところまでやりました。

今回は試しに線形モデルを作ってみます。

モデル全体のp-valueは0.1022となりました。個々の変数の係数を見ると、p-valueが0.05以下のものはありません。線形モデルではターゲットを上手く予測できない感じですね。

実際のtargetとモデルの予測値を散布図にしてみましょう。

う~ん、ダメだこりゃって感じですね。

二乗項や交互作用も加えてみます。

モデル全体のp-valueは0.2084と悪化してしまいました。

散布図を描いてみます。

代わり映えしないですね。。

線形モデルで個人成績からその個人が所属するチームの順位を予測するのは難しいようです。

今回は以上です。

次回は

www.crosshyou.info

です。

 

はじめから読むには、

www.crosshyou.info

です。

今回のコードは以下になります。

#
# linear model
lm_mod <- lm(target ~ ., data = df)
#
# lm_modのサマリー
summary(lm_mod)
#
# 実際のtargetと予測値の散布図
tibble(
  target = df$target,
  estimate = predict(lm_mod)
) |> 
  ggplot(aes(x = target, y = estimate)) +
  geom_point() +
  geom_abline(color = "red") +
  theme_minimal()
#
# 二乗項、交互作用も加える
lm_mod2 <- lm(target ~ rank + I(rank^2) + point + I(point^2) + game +
                I(game^2) + try + I(try^2) + goal + I(goal^2) + pg +
                I(pg^2) + point:try + try:goal + goal:pg, data = df)
#
# lm_mod2のサマリー
summary(lm_mod2)
#
# 散布図
tibble(
  target = df$target,
  estimate = predict(lm_mod2)
) |> 
  ggplot(aes(x = target, y = estimate)) +
  geom_point() +
  geom_abline(color = "red") +
  labs(title = "二乗項と交互作用を加えたモデル") +
  theme_minimal()
#

(冒頭の画像は、Bing Image Creator で生成しました。プロンプトは Natural wild field landscape, full of purple Nemophila flowers, close up of a Nemophila flower, blue sky, a small spring, photo です。)