www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

東京都の新型コロナ陽性者数のデータ分析6 - R言語のchisq.test関数で年代と性別のクロス表分析をする。

 

www.crosshyou.info

の続きです。

今回は、年代と性別でクロス表分析をします。

f:id:cross_hyou:20200607093710j:plain

性別の調査中と不明、年代の不明を削除しましょう。

f:id:cross_hyou:20200607094010j:plain

まず、年代の不明を削除しました。

次に、性別の調査中と不明を削除します。

f:id:cross_hyou:20200607095606j:plain


性別の100歳以上を90代と合計して、90代以上とレベル名を変更します。

f:id:cross_hyou:20200607094717j:plain

集計用_年代、集計用_性別の不要なレベル名を削除します。

f:id:cross_hyou:20200607094956j:plain

これでデータの整理はできました。

table関数でクロス表を作ります。

f:id:cross_hyou:20200607095722j:plain

prop.table関数で比率で表示しましょう

f:id:cross_hyou:20200607100230j:plain

女性のほうが比率が高いのは、10代、20代、80代、90代以上です。80代と90代以上はそもそも女性のほうが人口多いからでしょうが、10代、20代が多いというのは何故でしょうね。

chisq.test関数でカイ二乗検定をします。

f:id:cross_hyou:20200607100523j:plain

p-value < 2.2e-16と0.05よりも小さい値です。年代と性別は関連性があると言えます。

$stdresで調整済み残差を見ましょう。

f:id:cross_hyou:20200607100750j:plain

女性のほうが有意に多い年代は、10代、20代、80代、90代以上です。逆に有意に少ないのは40代、50代、60代です。

今回は以上です。