Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2010年から2024年のプロ野球の成績のデータ分析 3 - 勝率と打率、防御率、盗塁数の関係を視覚化

www.crosshyou.info

前回は各種変数を1試合当たりの数値に直しました。今回はいくつかの変数を視覚化してみます。まずは、一番大事なwin_rate: 勝率の分布をヒストグラムにしてみてみましょう。

0.5を中心にした山型の分布ですね。

次は、win_rate: 勝率とbatting_rate: 打率の散布図を描いてみましょう。

geom_smooth()関数で回帰直線を加えてみました。右肩上がりの直線になっていますので、batting_rate: 打率が高いほどwin_rate: 勝率が高いという関係だとわかります。セリーグ、パリーグで色を変えてみましたが、はっきりとした違いは無いように見えます。

次は、win_rate: 勝率とbougyo: 防御率の散布図です。

こんどは、右肩下がりの回帰直線になりましたね。つまり、bougyo: 防御率が低いほどwin_rate: 勝率が高いという関係です。

今度は、steal: 盗塁数との散布図を見てみます。

回帰直線は右肩上がりですね。steal: 盗塁数が多いほど、win_rate: 勝率が高い、という関係ですね。

batting_rate: 打率、bougyo: 防御率、steal: 盗塁数の3つとも常識的な感覚のwin_rate: 勝率との関係でした。

今回は以上です。

次回は、

www.crosshyou.info

 

はじめから読むには、

www.crosshyou.info

今回のコードは以下になります。

#
# win_rate: 勝率のヒストグラム
ggplot(df, aes(x = win_rate)) +
  geom_histogram(color = "white") +
  geom_density(color = "red",
               linewidth = 1)
#
# win_rate: 勝率と
# batting_rate: 打率の散布図
ggplot(df, aes(x = batting_rate,
               y = win_rate)) +
  geom_point(aes(color = league)) +
  geom_smooth(method = lm, se = FALSE)
#
# win_rate: 勝率と
# bougyo: 防御率の散布図
ggplot(df, aes(x = bougyo,
               y = win_rate)) +
  geom_point(aes(color = league)) +
  geom_smooth(method = lm, se = FALSE)
#
# win_rate: 勝率と
# steal: 盗塁数の散布図
ggplot(df, aes(x = steal, y = win_rate)) +
  geom_point(aes(color = league)) +
  geom_smooth(method = lm, se = FALSE)
#

 

(冒頭の画像は Bing Image Creator で生成しました。プロンプトは close up of red Salvia flowers, on the green grass fields with tiny white flowers, under the blue sky, photo です。)