Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

東京都の新型コロナ陽性者数のデータ分析７ - R言語のchisq.test関数で年代と退院済フラグのクロス表分析とglm関数で回帰分析をする。

データ分析

www.crosshyou.info

の続きです。

今回は年代と退院済フラグでクロス表を作成します。

f:id:cross_hyou:20200607145950j:plain

年代の不明を削除して、100歳以上を90代と一緒にして、90代以上にしましょう。

f:id:cross_hyou:20200607150701j:plain

クロス表を作成します。

f:id:cross_hyou:20200607150851j:plain

prop.table関数で比率をみてみます。

f:id:cross_hyou:20200607151058j:plain

年代が上がるほど、退院済フラグが0の比率が高くなっています。

chisq.test関数でカイ二乗検定をしてみます。

f:id:cross_hyou:20200607151333j:plain

p-value < 2.2e-16と0.05よりも小さいですから、年代と退院済フラグは関連性があります。

年代が上がるほど退院済フラグが0の比率が高く、逆に言えば退院済フラグが1の比率が低くなっていますので、

Statistics: An Introduction Using R

Statistics: An Introduction Using R

作者:Crawley, Michael J.
発売日: 2014/11/24
メディア: ペーパーバック

を参考にして、Proportion Dataの分析をしてみます。

まず、年代x退院済フラグの1列目と2列目をresponse variablesにします。

f:id:cross_hyou:20200607152112j:plain

次にexplanatory variableを用意します。10歳未満を5, 10代を15, 20代を25、というようにしましょう。

f:id:cross_hyou:20200607152313j:plain

plot関数で横軸に年代, 縦軸に退院済フラグが0の比率のグラフを描いてみます。

f:id:cross_hyou:20200607152726j:plain

f:id:cross_hyou:20200607152735j:plain

glm関数で回帰分析をしてみます。

f:id:cross_hyou:20200607152953j:plain

x の係数の符号はプラスです。xが大きくなるほど、yの比率は大きくなるということですね。

さきほどの散布図にモデルの予測値を追加してみます。

f:id:cross_hyou:20200607153402j:plain

f:id:cross_hyou:20200607153418j:plain

10代未満から20代のフィットが今一つですね。

xの2乗項を追加したモデルを試してみます。

f:id:cross_hyou:20200607153807j:plain

anova関数で、model1とmodel2を比較しました。model1とmoel2は有意に違います。

そして、model2のほうがResid. Devが小さいのでよさそうです。

summary関数で見てみましょう。

f:id:cross_hyou:20200607154026j:plain

xの2乗項も係数のp値は0.05以下で有意です。AICは86.662とmodel1の143.64よりも小さいです。

散布図にmodel1の予測値、model2の予測値を重ねて描きましょう。

f:id:cross_hyou:20200607154825j:plain

f:id:cross_hyou:20200607154838j:plain

model2のほうがフィットしています。

今回は以上です。