www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

プロ野球の勝敗データの分析1 - R言語のvar.test関数とt.test関数で二つの変数の分散・平均値が同じかどうかを調べる。

今回はプロ野球の勝敗データを分析してみようと思います。

npb.jpこのサイトにあった

f:id:cross_hyou:20191023072254j:plain

の画像にある勝敗データを使おうと思います。

まず、Excelにデータを転記しました。

f:id:cross_hyou:20191023075228j:plain

 

関東にある球団か、そうでないかという変数、Kantouと各リーグ上位をAクラス、下位をBクラスというClassを加えました。

これをread.csv関数でR言語に読込ませます。

f:id:cross_hyou:20191023075403j:plain



できました。

ここから、いろいろ分析の練習をしましょう。

参考図書は、Michael J. Crawley の Statistcs: An introduction Using R です。

 

Statistics: An Introduction Using R

Statistics: An Introduction Using R

 

 まず、セリーグとパリーグで勝利数の平均値を比べましょう。

f:id:cross_hyou:20191023074243j:plain

平均値はmean関数ですね。

f:id:cross_hyou:20191023074347j:plain

セリーグの勝利数の平均値が69, パリーグは70.33です。ほとんど同じですね。

平均値を比較する前に分散が同じかどうかをテストしないといけないです。var.test関数でテストします。

f:id:cross_hyou:20191023074649j:plain

p-valueが0.7035と0.05よりも大きいです。二つの分散に違いは無い、という帰無仮説は棄却できないです。つまり、二つの変数の分散は同じです。

二つの変数の分散が同じとき、平均値を比較するには、t.test関数です。

f:id:cross_hyou:20191023075038j:plain

p-valueは0.7271ですので、二つの変数の平均値に有意な違いは無い、ということです。

今回は以上です。