Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2010年から2024年のプロ野球の成績のデータ分析 2 - 安打数などを1試合当たりの値に修正する。

www.crosshyou.info

の続きです。前回は CSV ファイルのデータを R に取り込みました。今回は分析用のデータフレームを作りたいと思います。

まず、私の大目標は、勝率に関連する変数は何か、例えば、打率と防御率ではどっちが重要か、ホームラン数と二塁打数ではどっちが重要かなど、勝率を説明するのはどういうモデルか?というのがあるので、なるべくこの大目標に適したデータフレームにしたいと思います。

このように、試合数が120試合のシーズンもあれば、144試合のシーズンもあるので、

1試合当たりの値に変えたほうがいいものはそうします。

games, wons, losts, evens, game_sa は不要なので削除します。ついでに変数を並び替えます。

summary()関数で各変数の平均値などをみてみます。

win_rate: 勝率は一番悪いチームは0.319で一番良いチームは0.667です。hit: 安打は1試合で平均すると8.359本出ています。hr: ホームランは一番多いチームだと1.5694と1試合で1本以上出ていますね。

今回は以上です。

次回は

www.crosshyou.info

です。

 

はじめから読むには、

www.crosshyou.info

です。

今回のコードは以下になります。

#
# games: 試合数
summary(df_raw$games)
#
# 1試合当たりの数値にする
df <- df_raw |> 
  mutate(team = as.factor(team),
         league = as.factor(league),
         year = as.factor(year),
         win_rate = win_rate,
         batting_rate = batting_rate,
         dasu = dasu / games,
         tokuten = tokuten / games,
         hit = hit / games,
         two_base = two_base / games,
         three_base = three_base / games,
         hr = hr / games,
         daten = daten / games,
         steal = steal / games,
         bougyo = bougyo,
         saves = saves / games,
         kanto = kanto / games,
         kanpu = kanpu / games,
         innings = innings / games,
         sanshin = sanshin / games,
         shitten = shitten / games)
#
# games, wins, losts, evens, game_sa は不要
df <- df |> 
  select(-games, -wins, -losts, -evens, -game_sa) |> 
  relocate(team, league, year)
df
#
# 各変数のサマリー
summary(df |> select(-team, -league, -year))
#

 

(冒頭の画像は Bing Image Creator で生成しました。プロンプトは close-up of green setaria viridis flowers, under the blue sky in the clear air, beautiful lake, photo です。)