
今回からしばらくは、ラグビー リーグワン のデータを分析してみたいと思います。
具体的には、

( https://sports.yahoo.co.jp/rugby/leagueone/div1/stats/ )
この個人の成績から、

( https://sports.yahoo.co.jp/rugby/leagueone/div1/standings/ )
のチームの順位を予測したいと思います。
まず、個人成績のテーブルをCSVファイルにコピーペーストしました。

こんな感じです。2行目に変数名を挿入しました。
チーム順位を目視で確認して追加しました。targetという変数名です。

これをRに読み込んで分析します。
まず、tidyverse と tidymodels パッケージを読み込みます。

read_csv()関数でCSVファイルを読み込みます。

head() 関数でデータフレームを見てみます。

選手名は分析には使わないですし、チーム名はこれを入れると順位がすぐにわかっちゃいそうなので、name, team を削除したものを分析に使います。

これで分析の準備はできました。
とりあえず、相関係数マトリックスを作ってみます。

あ、dg(ドロップゴール)が標準偏差が0です。CSVファイルを見たら、50人全員、ドロップゴールは0でした。
dgを削除して、もう一度、相関係数マトリックスを作ります。

target(チームの順位)との相関に注目すると、rank(個人の順位)は正の相関です。point(得点)、game(試合数)、try(トライ数)は負の相関です。なんとなく納得できる相関の方向性ですね。goal(ゴール数)とpg(ペナルティーゴール)はほとんど無相関です。
今回は以上です。
次回は
です。
今回のコードは以下になります。
#
# 必要なパッケージの読み込み
library(tidyverse)
library(tidymodels)
#
# CSVファイルの読み込み
df_raw <- read_csv("league_one.csv",
skip = 1) |>
relocate(target)
#
# データフレームの確認
head(df_raw)
#
# nameとteamを削除
df <- df_raw |>
select(-name, -team)
head(df)
#
# 相関係数マトリックス
cor(df)
#
# dgを削除した相関係数マトリックス
df <- df |> select(-dg)
cor(df) |> round(3)
#
(冒頭の画像は、Bing Image Creator で生成しました。プロンプトは Landscape of old times natural forest, under the blue sky and a few white clouds, close up of beautiful purple wisteria flowers, Photograph. です。)