Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

プロ野球の勝敗データの分析3 - R言語のtapply関数でクロス表を作成して、chisq.test関数でカイ二乗検定。

 

www.crosshyou.info

 の続きです。

今回はクロス表を作って、カイ二乗検定をしてみます。

勝利数を

Aクラス・Bクラス x セリーグ・パリーグ、

Aクラス・Bクラス x 関東・非関東

セリーグ・パリーグ x 関東・非関東

この3つのクロス表で分類してカイ二乗検定をします。

まずは、Aクラス・Bクラス x セリーグ・パリーグからやってみます。

tapply関数でクロス表は作成できます。

f:id:cross_hyou:20191024062459j:plain

こうなりました。Aクラスのセリーグの球団の勝利数は217です。

chisq.testでこのクロス表に偏りがあるかどうかを調べます。

f:id:cross_hyou:20191024062810j:plain

p-value = 0.6902 > 0.05 ですから、Aクラス・Bクラスとセリーグ・パリーグに関連性はありません。

次は、Aクラス・Bクラス x 関東・非関東を調べてみます。

f:id:cross_hyou:20191024063200j:plain

あ、Aクラスでは、関東・非関東で勝利数は216, 228と同じくらいなのに、Bクラスでは、264, 128と2倍以上の開きがあります。これは関連性がありそうです。

f:id:cross_hyou:20191024063435j:plain

p-value = 4.863e-08 < 0.05 ですから、Aクラス・Bクラスと関東・非関東は関連性がありますね。Bクラスでは、非関東の球団が勝利数が多いです。

実際のクロス表と、関連性がなかった場合の期待値のクロス表を比較してみます。

f:id:cross_hyou:20191024064240j:plain

Aクラス関東、Bクラス非関東 の勝利数が期待値よりも多いことがわかります。

次は、セリーグ・パリーグ x 関東・非関東のクロス表です。

f:id:cross_hyou:20191024064636j:plain

セリーグでは、関東・非関東の勝利数は207で同数ですが、パリーグでは非関東の勝利数が273, 関東の勝利数が149と大きく違います。

f:id:cross_hyou:20191024064856j:plain

p-value = 1.745e-05 < 0.05 なので有意ですね。セリーグ・パリーグと関東・非関東は関連性があります。

f:id:cross_hyou:20191024065245j:plain

実際のクロス表と、関連性が無かった場合の期待値を比較すると、上のようになります。セリーグ・関東、パリーグ・非関東の勝利数が期待値よりも実際は多いことがわかります。

今回は以上です。