の続きです。
今回は一人当りの老人福祉費を面積(対数をとったもの)と県内総生産(対数をとったもの)の二つの変数で回帰分析してみたいと思います。
まずは、それぞれの変数との散布図を描いてみます。
面積は関係なさそうですが、GDPは関係ありそうですね。
lm関数で重回帰分析のモデルを作り、調べていきます。
まずは、交差項も2乗項も入ったmaximumモデルからスタートします。
logArea:logGDPの交差項のp値は0.2071ですので削除しましょう。
anova関数でmodel1とmodel2を比較しました。p値が0.2071ですのでmodel2でいいですね。中身をみてみましょう。
I(logArea^2)は必要なさそうですね。削除してみましょう。
p値が0.612ですから、model2とmodel3は有意な差は無いです。従いまして、より単純なmodel3を採用します。summary関数で見てみます。
あ、これですべての変数が有意になりました。モデル全体のp-valueは2.482e-10ですから有意なモデルです。Adjusted R-squaredは0.643ですから、都道府県別の一人当り老人福祉費は、面積と県内総生産、県内総生産の2乗で64.3%が説明できると言えます。
logAreaの係数は5.790とプラスですから、面積が大きい県ほど、一人当り老人福祉費は多いということですね。logGDPに関しては、logGDPの係数は-147, 2乗の項の係数は9.866ですから、
9.866logGDP^2 - 147.078logGDP = 9.866logGDP(logGDP - 14.907569)
と変換できますので、14.907569の半分の7.5ぐらいまでは、logGDPが0kら7.5ぐらいまではだんだんと減少して、それからはだんだんと増加していく、ということですね。
Y = 9.866 * X^2 - 147.078のグラフを描いてみましょう。
logGDPは6.25から8.00の範囲ですからこの範囲で考えると、6.25から7.5ぐらいまではlogGDPが大きいほど、一人当り老人福祉費は少なく、7.5から8.0の間ではlogGDPが大きいほど一人当り老人福祉費も大きいということですね。
model3の残差プロットを描きましょう。
今回は以上です。