Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

東京都の新型コロナ陽性者数のデータ分析3 - R言語のchisq.test関数で曜日と年代のクロス表分析をする。

 

www.crosshyou.info

 の続きです。

前回は、1変数について陽性者数を集計しました。

今回は、2変数で集計してみます。

曜日 x 年代、曜日 x 性別、曜日 x 退院済、年代 x 性別、年代 x 退院済、性別 x 退院済、の6つです。

f:id:cross_hyou:20200606093330j:plain

10歳未満と10代を統合、90代と100歳以上を統合、不明は削除しましょう。

f:id:cross_hyou:20200606094020j:plain

!= "不明" で不明のデータは削除して、集計用_年代のファクターレベルを書き替えました。

このデータで集計してみます。

f:id:cross_hyou:20200606094337j:plain

よくわからないですね。。prop.table関数で比率にしてみます。

f:id:cross_hyou:20200606094551j:plain

どこも0.00 ~ 0.03までで突出して多いところは無さそうですね。

chisq.test関数で、曜日と年代は関連があるかどうか検定します。

f:id:cross_hyou:20200606094850j:plain

p-value = 0.0001412と0.05よりも低いです。どこかの組合せは偶然よりも多い(少ない)患者数ということですね。

$stdresで調整済み残差をみてみます。

f:id:cross_hyou:20200606095347j:plain

調整済み残差は絶対値で2よりも大きいところが有意に違いがあるところです。

10代以下は木曜日が多く、金曜日が少ない

20代は無し、30代は無し、40代は無し、

50代は木曜日と日曜日が少なく、土曜日が多い

60代は無し、70代は無し、

80代は火曜日が少なく、金曜日が多い、

90代以上は水曜日が少なく、日曜日が多い、
ということがわかりました。

今回は以上です。