
前回は各種変数を1試合当たりの数値に直しました。今回はいくつかの変数を視覚化してみます。まずは、一番大事なwin_rate: 勝率の分布をヒストグラムにしてみてみましょう。


0.5を中心にした山型の分布ですね。
次は、win_rate: 勝率とbatting_rate: 打率の散布図を描いてみましょう。


geom_smooth()関数で回帰直線を加えてみました。右肩上がりの直線になっていますので、batting_rate: 打率が高いほどwin_rate: 勝率が高いという関係だとわかります。セリーグ、パリーグで色を変えてみましたが、はっきりとした違いは無いように見えます。
次は、win_rate: 勝率とbougyo: 防御率の散布図です。


こんどは、右肩下がりの回帰直線になりましたね。つまり、bougyo: 防御率が低いほどwin_rate: 勝率が高いという関係です。
今度は、steal: 盗塁数との散布図を見てみます。


回帰直線は右肩上がりですね。steal: 盗塁数が多いほど、win_rate: 勝率が高い、という関係ですね。
batting_rate: 打率、bougyo: 防御率、steal: 盗塁数の3つとも常識的な感覚のwin_rate: 勝率との関係でした。
今回は以上です。
次回は、
はじめから読むには、
今回のコードは以下になります。
#
# win_rate: 勝率のヒストグラム
ggplot(df, aes(x = win_rate)) +
geom_histogram(color = "white") +
geom_density(color = "red",
linewidth = 1)
#
# win_rate: 勝率と
# batting_rate: 打率の散布図
ggplot(df, aes(x = batting_rate,
y = win_rate)) +
geom_point(aes(color = league)) +
geom_smooth(method = lm, se = FALSE)
#
# win_rate: 勝率と
# bougyo: 防御率の散布図
ggplot(df, aes(x = bougyo,
y = win_rate)) +
geom_point(aes(color = league)) +
geom_smooth(method = lm, se = FALSE)
#
# win_rate: 勝率と
# steal: 盗塁数の散布図
ggplot(df, aes(x = steal, y = win_rate)) +
geom_point(aes(color = league)) +
geom_smooth(method = lm, se = FALSE)
#
(冒頭の画像は Bing Image Creator で生成しました。プロンプトは close up of red Salvia flowers, on the green grass fields with tiny white flowers, under the blue sky, photo です。)