前回のブログ
に続いて、今回はR言語でクロス表分析をしたいと思います。前回までで作成したデータフレームはこんなものでした。
成長性偏差値、経済規模偏差値、裕福さ偏差値、民間政府偏差値それぞれの変数の50以上の値を高成長、大規模、高裕福、高民間と二分し、50未満の値を低成長、小規模、低裕福、低民間と二分するカテゴリカル変数を作成してクロス表分析をする、という目論見です。
ifelse関数を使います。
こうなります。
成長性カテ、経済規模カテ、裕福さカテ、民間政府カテ、の4つの変数がありますから、6組のクロス表が作成できますね。table関数でクロス表を作成し、fisher.test関数で正確確率検定をして変数どうしに関連性があるかないかを調べましょう。
まずは、成長性と経済規模です。
高成長と大規模、低成長と小規模の組み合わせが多いですが、統計的に有意でしょうか?フィッシャーの正確確率検定をfisher.test関数でやってみます。
p-value = 0.3852 > 0.05 なので統計的に有意とはいえません。
次は、成長性と裕福さを調べます。
高成長と高裕福、低成長と低裕福の組み合わせが多いですね。この関係は統計的に有意でしょうか?
p-value = 0.1478 > 0.05 ですから統計的に有意だとは言えません。
成長性と民間政府比率はいかがでしょうか?
これは関係ないとわかりますね。一応、検定してみます。
p-value = 1 > 0.05 ですから統計的に有意ではないですね。
以上の結果から、成長性と他の3つの変数は関連はないことがわかりました。
続きて、経済規模と裕福さをみてみましょう。
小規模と低裕福、大規模と高裕福の組み合わせが多いですね。統計的に有意でしょうか?
p-value = 0.007729 < 0.05 ですから統計的に有意です。経済規模の大小と裕福さは関連性があります。経済規模が大きいのと高裕福が結びつき、経済規模の小さいのと低裕福が結びつきます。これはあくまでも相関関係なので因果関係ではありません。
経済規模と民間政府比率はどうでしょうか?
小規模と低民間、大規模と高民間の組み合わせが多いですね。統計的に有意かどうかフィッシャーの正確確率検定で確認しましょう。
p-value = 0.001085 < 0.05 ですから統計的に有意です。経済規模が小さい都道府県は民間の比率が低く、経済規模が大きい都道府県は民間の比率が高いということですね。
最後の組み合わせ、裕福さと民間政府比率はどうでしょうか?
高裕福と高民間、低裕福と低民間の組み合わせが多いです。統計的に有意でしょうか?
p-value = 0.0002912 < 0.05 ですから統計的に有意です。裕福さと民間政府比率は関連があります。
以上、結果を整理すると、成長性は他の3変数とは関連性はありませんでしたが、経済規模、裕福さ、民間政府比率の3変数はそれぞれ関連性があることがわかりました。