今回はプロ野球の勝敗データを分析してみようと思います。
npb.jpこのサイトにあった
の画像にある勝敗データを使おうと思います。
まず、Excelにデータを転記しました。
関東にある球団か、そうでないかという変数、Kantouと各リーグ上位をAクラス、下位をBクラスというClassを加えました。
これをread.csv関数でR言語に読込ませます。
できました。
ここから、いろいろ分析の練習をしましょう。
参考図書は、Michael J. Crawley の Statistcs: An introduction Using R です。
Statistics: An Introduction Using R
- 作者: Michael J. Crawley
- 出版社/メーカー: Wiley
- 発売日: 2019/12/09
- メディア: ペーパーバック
- この商品を含むブログを見る
まず、セリーグとパリーグで勝利数の平均値を比べましょう。
平均値はmean関数ですね。
セリーグの勝利数の平均値が69, パリーグは70.33です。ほとんど同じですね。
平均値を比較する前に分散が同じかどうかをテストしないといけないです。var.test関数でテストします。
p-valueが0.7035と0.05よりも大きいです。二つの分散に違いは無い、という帰無仮説は棄却できないです。つまり、二つの変数の分散は同じです。
二つの変数の分散が同じとき、平均値を比較するには、t.test関数です。
p-valueは0.7271ですので、二つの変数の平均値に有意な違いは無い、ということです。
今回は以上です。