の続きです。
今回は、年代と性別でクロス表分析をします。
性別の調査中と不明、年代の不明を削除しましょう。
まず、年代の不明を削除しました。
次に、性別の調査中と不明を削除します。
性別の100歳以上を90代と合計して、90代以上とレベル名を変更します。
集計用_年代、集計用_性別の不要なレベル名を削除します。
これでデータの整理はできました。
table関数でクロス表を作ります。
prop.table関数で比率で表示しましょう
女性のほうが比率が高いのは、10代、20代、80代、90代以上です。80代と90代以上はそもそも女性のほうが人口多いからでしょうが、10代、20代が多いというのは何故でしょうね。
chisq.test関数でカイ二乗検定をします。
p-value < 2.2e-16と0.05よりも小さい値です。年代と性別は関連性があると言えます。
$stdresで調整済み残差を見ましょう。
女性のほうが有意に多い年代は、10代、20代、80代、90代以上です。逆に有意に少ないのは40代、50代、60代です。
今回は以上です。