Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別別の「医療費の動向」調査のデータ分析6 - R言語のglm関数でロジスティクス回帰分析をする。

 

www.crosshyou.info

 の続きです。

今回はR言語のglm関数でロジスティクス回帰分析をします。

response variableはeastweat: 東日本と西日本にしてみます。

explanatory variablesはyear: 年度、medical_total: 医科_計、dental: 歯科、pharma: 調剤、visit: 訪問看護療養にしてみます。

まずは、それぞれのexplanatory variableとeastjapanの関係を箱ひげ図であらわしてみます。

まずは、medical_totalから。

f:id:cross_hyou:20201120191824p:plain

f:id:cross_hyou:20201120191838p:plain

ggplot2パッケージのgeom_boxplot関数で箱ひげ図を描きました。

東日本と西日本では明確な違いは無いようですね。

次はdental: 歯科です。

f:id:cross_hyou:20201120192153p:plain

f:id:cross_hyou:20201120192208p:plain

geom_boxplot(aes(colour = eastwest))として東日本と西日本で色を変えてみました。

次はpahrma: 調剤です。

f:id:cross_hyou:20201120204459p:plain

f:id:cross_hyou:20201120204514p:plain

geom_point関数で個々のデータもプロットしました。

visit: 訪問看護療養はどうでしょうか?

f:id:cross_hyou:20201120205048p:plain

f:id:cross_hyou:20201120205103p:plain

geom_boxplot(aes(fill = eastjapan))として色の分けしたのと、

geom_point(aes(colour = year))として、個々のデータを色分けしてみました。

こうして箱ひげ図にしてみましたが、東日本と西日本ではっきりした違いはなさそうですね。

続いて、explanatory variablesどうしの相関係数マトリックスを見てみましょう。

GGallyパッケージのggpairs関数を使います。

f:id:cross_hyou:20201120205558p:plain

f:id:cross_hyou:20201120205526p:plain

一番相関係数の大きいのはmedical_totalとpharmaです。0.691です。explanatory variablesどうしの相関は高くないので、多重共線性はないですね。

それでは、glm関数でロジスティクス回帰分析のモデルを作ります。

f:id:cross_hyou:20201120210045p:plain

medical_total: 医科_計、dental: 歯科、visit: 訪問看護療養が有意な変数のようですね。

predict関数でこのモデルから東日本と西日本を予測してみます。

f:id:cross_hyou:20201120210823p:plain

table関数で予測と実際の2x2のクロス表を作ります。

f:id:cross_hyou:20201120211133p:plain

1が西日本、2が東日本です。

モデルが西日本と予測したうち、77は正解、31は不正解

モデルが東日本と予測したうち、12は正解、20は不正解です。

chisq.test関数でこの予測結果が偶然でもなるのか、統計的に有意なのか調べます。

f:id:cross_hyou:20201120211423p:plain

p-value = 0.001742と0.05より小さいので有意なモデルです。

オッズレシオを計算してみましょう。

f:id:cross_hyou:20201120212920p:plain

オッズレシオは分子が正解の数の掛け算、分母が不正解の数の掛け算です。

オッズレシオは3.82です。

今回は以上です。