www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

東京都の新型コロナ陽性者数のデータ分析9 - R言語のglm関数で退院済フラグを性別と年代でロジスティクス回帰分析

 

www.crosshyou.info

 の続きです。

今回は、R言語のglm関数で退院済フラグをresponse variableに、性別と年代をexplanatory variablesにしてロジスティクス回帰分析をしてみます。

まず、退院済フラグ、性別と年代だけのデータフレームを作ります。

f:id:cross_hyou:20200613083350j:plain

head関数、str関数でデータフレームを確認します。

f:id:cross_hyou:20200613083444j:plain

table関数で年代を整理してみます。

f:id:cross_hyou:20200613083541j:plain

不明が8人います。これをデータフレームから削除します。

f:id:cross_hyou:20200613083640j:plain

100歳以上を90代以上にします。

f:id:cross_hyou:20200613083737j:plain

90代を90代以上にします。

f:id:cross_hyou:20200613083820j:plain

10歳未満を5、10代を15、20代を25と数字だけにします。

f:id:cross_hyou:20200613083927j:plain

この年代を数値型に変換します。

f:id:cross_hyou:20200613084024j:plain

これで年代の下準備はおわりました。

次は性別です。

f:id:cross_hyou:20200613084117j:plain

factor型だと処理が面倒なので、文字列型にしました。

調査中と不明をデータフレームから削除します。

f:id:cross_hyou:20200613084251j:plain

性別をfactorに戻して、データフレーム全体をsummary関数で確認します。

f:id:cross_hyou:20200613084407j:plain

年代を横軸、退院済フラグを縦軸にして散布図を描きます。女性は赤、男性は緑で表します。

f:id:cross_hyou:20200613084616j:plain

f:id:cross_hyou:20200613084634j:plain

jitter関数で微妙に値をずらしています。

 

それではglm関数でロジスティクス回帰分析をします。

f:id:cross_hyou:20200613084828j:plain

年代:性別の交互作用は必要ないようです。

f:id:cross_hyou:20200613084929j:plain

anova関数で年代:性別のあるglm1と無いglm2を比較しました。Pr(>Chi)が0.4675と0.05よりも大きいですから、glm1とglm2では有意な差はないです。単純なほうのglm2を採用します。

f:id:cross_hyou:20200613085135j:plain

年代の係数の符号はマイナスです。つまり年代が上がるほど退院済フラグが0になるということです。

また、男性の係数の符号はプラスです。つまり男性のほうが女性よりも退院済フラグが1になるということです。

今回は以上です。