の続きです。
今回は、R言語のglm関数で退院済フラグをresponse variableに、性別と年代をexplanatory variablesにしてロジスティクス回帰分析をしてみます。
まず、退院済フラグ、性別と年代だけのデータフレームを作ります。
head関数、str関数でデータフレームを確認します。
table関数で年代を整理してみます。
不明が8人います。これをデータフレームから削除します。
100歳以上を90代以上にします。
90代を90代以上にします。
10歳未満を5、10代を15、20代を25と数字だけにします。
この年代を数値型に変換します。
これで年代の下準備はおわりました。
次は性別です。
factor型だと処理が面倒なので、文字列型にしました。
調査中と不明をデータフレームから削除します。
性別をfactorに戻して、データフレーム全体をsummary関数で確認します。
年代を横軸、退院済フラグを縦軸にして散布図を描きます。女性は赤、男性は緑で表します。
jitter関数で微妙に値をずらしています。
それではglm関数でロジスティクス回帰分析をします。
年代:性別の交互作用は必要ないようです。
anova関数で年代:性別のあるglm1と無いglm2を比較しました。Pr(>Chi)が0.4675と0.05よりも大きいですから、glm1とglm2では有意な差はないです。単純なほうのglm2を採用します。
年代の係数の符号はマイナスです。つまり年代が上がるほど退院済フラグが0になるということです。
また、男性の係数の符号はプラスです。つまり男性のほうが女性よりも退院済フラグが1になるということです。
今回は以上です。