
の続きです。前回は CSV ファイルのデータを R に取り込みました。今回は分析用のデータフレームを作りたいと思います。
まず、私の大目標は、勝率に関連する変数は何か、例えば、打率と防御率ではどっちが重要か、ホームラン数と二塁打数ではどっちが重要かなど、勝率を説明するのはどういうモデルか?というのがあるので、なるべくこの大目標に適したデータフレームにしたいと思います。

このように、試合数が120試合のシーズンもあれば、144試合のシーズンもあるので、
1試合当たりの値に変えたほうがいいものはそうします。

games, wons, losts, evens, game_sa は不要なので削除します。ついでに変数を並び替えます。

summary()関数で各変数の平均値などをみてみます。

win_rate: 勝率は一番悪いチームは0.319で一番良いチームは0.667です。hit: 安打は1試合で平均すると8.359本出ています。hr: ホームランは一番多いチームだと1.5694と1試合で1本以上出ていますね。
今回は以上です。
次回は
です。
はじめから読むには、
です。
今回のコードは以下になります。
#
# games: 試合数
summary(df_raw$games)
#
# 1試合当たりの数値にする
df <- df_raw |>
mutate(team = as.factor(team),
league = as.factor(league),
year = as.factor(year),
win_rate = win_rate,
batting_rate = batting_rate,
dasu = dasu / games,
tokuten = tokuten / games,
hit = hit / games,
two_base = two_base / games,
three_base = three_base / games,
hr = hr / games,
daten = daten / games,
steal = steal / games,
bougyo = bougyo,
saves = saves / games,
kanto = kanto / games,
kanpu = kanpu / games,
innings = innings / games,
sanshin = sanshin / games,
shitten = shitten / games)
#
# games, wins, losts, evens, game_sa は不要
df <- df |>
select(-games, -wins, -losts, -evens, -game_sa) |>
relocate(team, league, year)
df
#
# 各変数のサマリー
summary(df |> select(-team, -league, -year))
#
(冒頭の画像は Bing Image Creator で生成しました。プロンプトは close-up of green setaria viridis flowers, under the blue sky in the clear air, beautiful lake, photo です。)