今回からしばらくは、プロ野球の勝敗のデータを分析してみたいと思います。
日本野球機構のウェブサイトに、
https://npb.jp/bis/yearly/centralleague_2024.html
こんな感じで毎年の各球団の成績表がありましたので、これをCSVファイルに2010年から2024年までのデータを保存しました。
こんな感じに保存しました。
これを R に読み込んで分析します。
まず、tidyverse パッケージを読み込みます。
read_csv()関数でCSVファイルを読み込みます。
180行、25列のデータフレームです。
team, league は文字列型の変数で、その他は数値型の変数であることがわかります。
glimpse()関数でデータフレームを見てみます。
特に問題なく読み込まれたようです。
各変数が何を表しているか、確認していきます。
team: 球団名
games: 試合数
wins: 勝利数
losts: 敗北数
evens: 引き分け数
win_rate: 勝率
game_sa: ゲーム差(1位のチームは-1にしました)
year: 西暦
league: 所属リーグ、セリーグならC、パリーグならP
batting_rate: 打率
dasu: 打数
tokuten: 得点
hit: 安打
two_base: 二塁打
three_base: 三塁打
hr: ホームラン
daten: 打点
steal: 盗塁
bougyo: 防御率
saves: セーブ
kanto: 完投
kanpu: 完封勝
innings: 投球回
sanshin: 奪三振
shitten: 失点
です。
私の基本的な目標は、勝率を打点や防御率などその他の変数で説明するモデルを作ることです。
今回は以上です。
次回は
です。
今回のコードは以下のとおりです。
#
# tidyverseの読み込み
library(tidyverse)
#
# CSVファイルの読み込み
df_raw <- read_csv("probaseball.csv",
skip = 5)
#
# glimpse
glimpse(df_raw)
#
(冒頭の画像は Bing Image Creator で生成しました。 プロンプトは Close up of crape myrtle flowers, standing on green grass fields, running clear water small river, under the blue sky. Photo です。)