厚生年金保険データの分析７ - R言語でクロス表分析をする

の続きです。

今回は東日本と西日本、人口の多い県と少ない県などと、男性優位の県と女性優位の県という二分するファクターを作り、クロス表分析をしようと思います。

まずは、東日本と西日本のファクターを作成しましょう。

まず、都道府県がどういう順番で登録されているかを見てみましょう。

f:id:cross_hyou:20190109120829j:plain

このようになっていますから、23番目の愛知県までを東日本、それ以降を西日本としましょう。

こんな感じでrep関数、c関数、factor関数を使って作りました。

f:id:cross_hyou:20190109121247j:plain

人口の多い県、少ない県は、data$被保険者数を使って、ifelse関数、median関数、factor関数で作成しました。

f:id:cross_hyou:20190109121802j:plain

男性優位、女性優位は前回作成したMF_Scoreを使って、ifelse関数、median関数、factor関数で作成します。

f:id:cross_hyou:20190109122309j:plain

MF_Scoreはそれぞれの要素に名前がついていたので、上のような結果になっています。愛知は男性優位、沖縄は女性優位になっていますね。

EWとPOPの各要素にも都道府県名を付与しておきましょう。names関数です。

f:id:cross_hyou:20190109122537j:plain

f:id:cross_hyou:20190109122658j:plain

こうしてファクタが作成できましたので、table関数でクロス表を作成し、chisq.test関数で2つのファクタが関連性があるかどうかを検定します。

東日本・西日本と男性優位・女性優位のクロス表分析からしましょう。

f:id:cross_hyou:20190109123106j:plain

p-value = 0.005507と0.05よりも小さいp値なので東日本・西日本と男性優位・女性優位ファクターは関連性があります。西日本は女性優位が多く、東日本は男性優位が多いということですね。

人口多い県・人口少ない県と男性優位・女性優位のクロス表分析をします。

f:id:cross_hyou:20190109123435j:plain

p-value = 0.01322ですので有意です。人口が少ないと女性優位、人口が多いと男性優位という関係性です。

東日本・西日本と人口多い・人口少ないのクロス表分析はどうでしょうか？予想としては東日本が人口多い、西日本が人口少ないという関係ですがどうでしょう？

f:id:cross_hyou:20190109123823j:plain

p-value = 0.1078なので0.05よりも大きい値ですから有意ではないです。傾向としては確かに東日本が人口多く、西日本では人口少ないですが有意なほどではありません。

まとめると、
東日本のほうが男性優位・西日本のほうが女性優位
人口多い県のほうが男性優位・人口少ないほうが女性優位

とわかりました。

今回は以上です。