の続きです。
今回はR言語のglm関数でロジスティクス回帰分析をします。
response variableはeastweat: 東日本と西日本にしてみます。
explanatory variablesはyear: 年度、medical_total: 医科_計、dental: 歯科、pharma: 調剤、visit: 訪問看護療養にしてみます。
まずは、それぞれのexplanatory variableとeastjapanの関係を箱ひげ図であらわしてみます。
まずは、medical_totalから。
ggplot2パッケージのgeom_boxplot関数で箱ひげ図を描きました。
東日本と西日本では明確な違いは無いようですね。
次はdental: 歯科です。
geom_boxplot(aes(colour = eastwest))として東日本と西日本で色を変えてみました。
次はpahrma: 調剤です。
geom_point関数で個々のデータもプロットしました。
visit: 訪問看護療養はどうでしょうか?
geom_boxplot(aes(fill = eastjapan))として色の分けしたのと、
geom_point(aes(colour = year))として、個々のデータを色分けしてみました。
こうして箱ひげ図にしてみましたが、東日本と西日本ではっきりした違いはなさそうですね。
続いて、explanatory variablesどうしの相関係数マトリックスを見てみましょう。
GGallyパッケージのggpairs関数を使います。
一番相関係数の大きいのはmedical_totalとpharmaです。0.691です。explanatory variablesどうしの相関は高くないので、多重共線性はないですね。
それでは、glm関数でロジスティクス回帰分析のモデルを作ります。
medical_total: 医科_計、dental: 歯科、visit: 訪問看護療養が有意な変数のようですね。
predict関数でこのモデルから東日本と西日本を予測してみます。
table関数で予測と実際の2x2のクロス表を作ります。
1が西日本、2が東日本です。
モデルが西日本と予測したうち、77は正解、31は不正解
モデルが東日本と予測したうち、12は正解、20は不正解です。
chisq.test関数でこの予測結果が偶然でもなるのか、統計的に有意なのか調べます。
p-value = 0.001742と0.05より小さいので有意なモデルです。
オッズレシオを計算してみましょう。
オッズレシオは分子が正解の数の掛け算、分母が不正解の数の掛け算です。
オッズレシオは3.82です。
今回は以上です。