の続きです。
前回までの分析で、一人当りの医療費は、一人当り県内総生産がちいさいほど大きくなることがわかりました。今回は、人口密度を説明変数に加えて分析してみます。
まずは、上のように、平均人口密度を表す変数(avgMits)を作成しました。sort関数で小さい順に並び替えましたが、北海道が人口密度は低く、東京都が高くなっています。当たり前ですね。
前回は東京都を分析からはずしましたが、今回は東京都も含めて分析します。
まず、一人当り医療費とそれぞれの散布図を描いてみます。
どちらも説明変数の値が大きくなるほど、一人当り医療費は下がる傾向が(無理やりですが)あるようです。狭いところに人がたくさんいるのは不健康なのでしょうね。
Statistics: An Introduction Using R by Michael J. Crawley(2014-11-24)
- 作者: Michael J. Crawley
- 出版社/メーカー: Wiley
- 発売日: 2014
- メディア: ?
- この商品を含むブログを見る
この Statistics: An Introduction Using R by Michael J. Crawleyの本を参考にして分析します。
まずは、gam関数でgeneralized additive modelというのをするようです。
どうなんでしょうね。左の一人当り県内総生産は直線的な回帰曲線ですが、右の人口密度はカーブしていますね。
それでは、lm関数で重回帰分析をしてみます。
まずは、2乗項や交差項の入った複雑なモデルです。
p-valueが.0004032なので有意なモデルですね。I(avgMits^2)は関係なさそうなので削除したmodel2を調べましょう。
p-valueが0.0001462とさらに小さい値になりました。Adjusted R2も0.3542と改善しています。
切片以外の変数の係数のp値は0.05以下です。前回のavgHGDPだけで回帰したモデルよりも説明力(Adjusted R-squared)が大きくなっています。
avgHGDPもavgMitsも大きい値が外れ値っぽくなっていましたから、対数をとって同じように重回帰分析してみます。
まずは対数にした変数を作成しました。
対数で回帰したモデルでも、I(lnMits^2)はいらないようです。
p値が0.0003877とmodel3の0.0003693よりも大きくなってしまいました。
anova関数でmodel3とmodel4で有意な違いがあるか調べます。
p値が0.1226と0.05よりも大きいですから、model3とmodel4は有意な違いは無いということです。なのでmodel4を採用します。
model2とmodel4の残差プロットを描いてみます。
今回は以上です。