の続きです。
今回は、年代と性別でクロス表分析をします。

性別の調査中と不明、年代の不明を削除しましょう。

まず、年代の不明を削除しました。
次に、性別の調査中と不明を削除します。

性別の100歳以上を90代と合計して、90代以上とレベル名を変更します。

集計用_年代、集計用_性別の不要なレベル名を削除します。

これでデータの整理はできました。
table関数でクロス表を作ります。

prop.table関数で比率で表示しましょう

女性のほうが比率が高いのは、10代、20代、80代、90代以上です。80代と90代以上はそもそも女性のほうが人口多いからでしょうが、10代、20代が多いというのは何故でしょうね。
chisq.test関数でカイ二乗検定をします。

p-value < 2.2e-16と0.05よりも小さい値です。年代と性別は関連性があると言えます。
$stdresで調整済み残差を見ましょう。

女性のほうが有意に多い年代は、10代、20代、80代、90代以上です。逆に有意に少ないのは40代、50代、60代です。
今回は以上です。