Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

ラグビー リーグワン のデータの分析 1 - R にデータを読み込ませる。

今回からしばらくは、ラグビー リーグワン のデータを分析してみたいと思います。

具体的には、

( https://sports.yahoo.co.jp/rugby/leagueone/div1/stats/ )
この個人の成績から、

https://sports.yahoo.co.jp/rugby/leagueone/div1/standings/ )
のチームの順位を予測したいと思います。

まず、個人成績のテーブルをCSVファイルにコピーペーストしました。

こんな感じです。2行目に変数名を挿入しました。

チーム順位を目視で確認して追加しました。targetという変数名です。

これをRに読み込んで分析します。

まず、tidyverse と tidymodels パッケージを読み込みます。

read_csv()関数でCSVファイルを読み込みます。

head() 関数でデータフレームを見てみます。

選手名は分析には使わないですし、チーム名はこれを入れると順位がすぐにわかっちゃいそうなので、name, team を削除したものを分析に使います。

これで分析の準備はできました。

とりあえず、相関係数マトリックスを作ってみます。

あ、dg(ドロップゴール)が標準偏差が0です。CSVファイルを見たら、50人全員、ドロップゴールは0でした。

dgを削除して、もう一度、相関係数マトリックスを作ります。

target(チームの順位)との相関に注目すると、rank(個人の順位)は正の相関です。point(得点)、game(試合数)、try(トライ数)は負の相関です。なんとなく納得できる相関の方向性ですね。goal(ゴール数)とpg(ペナルティーゴール)はほとんど無相関です。

今回は以上です。

次回は

www.crosshyou.info

です。

 

今回のコードは以下になります。

#
# 必要なパッケージの読み込み
library(tidyverse)
library(tidymodels)
#
# CSVファイルの読み込み
df_raw <- read_csv("league_one.csv",
                   skip = 1) |> 
  relocate(target)
#
# データフレームの確認
head(df_raw)
#
# nameとteamを削除
df <- df_raw |> 
  select(-name, -team)
head(df)
#
# 相関係数マトリックス
cor(df)
#
# dgを削除した相関係数マトリックス
df <- df |> select(-dg)
cor(df) |> round(3)
#

(冒頭の画像は、Bing Image Creator で生成しました。プロンプトは Landscape of old times natural forest, under the blue sky and a few white clouds, close up of beautiful purple wisteria flowers, Photograph. です。)