www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の国民医療費の分析３ - 人口密度を説明変数に加えて重回帰分析

データ分析

www.crosshyou.info

の続きです。

前回までの分析で、一人当りの医療費は、一人当り県内総生産がちいさいほど大きくなることがわかりました。今回は、人口密度を説明変数に加えて分析してみます。

f:id:cross_hyou:20190815192414j:plain

まずは、上のように、平均人口密度を表す変数(avgMits)を作成しました。sort関数で小さい順に並び替えましたが、北海道が人口密度は低く、東京都が高くなっています。当たり前ですね。

前回は東京都を分析からはずしましたが、今回は東京都も含めて分析します。

まず、一人当り医療費とそれぞれの散布図を描いてみます。

f:id:cross_hyou:20190815193240j:plain

f:id:cross_hyou:20190815193252j:plain

どちらも説明変数の値が大きくなるほど、一人当り医療費は下がる傾向が(無理やりですが)あるようです。狭いところに人がたくさんいるのは不健康なのでしょうね。

Statistics: An Introduction Using R by Michael J. Crawley(2014-11-24)

Statistics: An Introduction Using R by Michael J. Crawley(2014-11-24)

作者: Michael J. Crawley
出版社/メーカー: Wiley
発売日: 2014
メディア: ?
この商品を含むブログを見る

この Statistics: An Introduction Using R by Michael J. Crawleyの本を参考にして分析します。

まずは、gam関数でgeneralized additive modelというのをするようです。

f:id:cross_hyou:20190815194002j:plain

f:id:cross_hyou:20190815194019j:plain

どうなんでしょうね。左の一人当り県内総生産は直線的な回帰曲線ですが、右の人口密度はカーブしていますね。

それでは、lm関数で重回帰分析をしてみます。

まずは、2乗項や交差項の入った複雑なモデルです。

f:id:cross_hyou:20190815195346j:plain

p-valueが.0004032なので有意なモデルですね。I(avgMits^2)は関係なさそうなので削除したmodel2を調べましょう。

f:id:cross_hyou:20190815195733j:plain

p-valueが0.0001462とさらに小さい値になりました。Adjusted R2も0.3542と改善しています。

切片以外の変数の係数のp値は0.05以下です。前回のavgHGDPだけで回帰したモデルよりも説明力(Adjusted R-squared)が大きくなっています。

avgHGDPもavgMitsも大きい値が外れ値っぽくなっていましたから、対数をとって同じように重回帰分析してみます。

f:id:cross_hyou:20190815200517j:plain

まずは対数にした変数を作成しました。

f:id:cross_hyou:20190815200739j:plain

対数で回帰したモデルでも、I(lnMits^2)はいらないようです。

f:id:cross_hyou:20190815201035j:plain

p値が0.0003877とmodel3の0.0003693よりも大きくなってしまいました。

anova関数でmodel3とmodel4で有意な違いがあるか調べます。

f:id:cross_hyou:20190815201246j:plain

p値が0.1226と0.05よりも大きいですから、model3とmodel4は有意な違いは無いということです。なのでmodel4を採用します。

model2とmodel4の残差プロットを描いてみます。

f:id:cross_hyou:20190815201744j:plain

f:id:cross_hyou:20190815201756j:plain

今回は以上です。