crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の老人福祉費と児童福祉費の分析7 - R言語で重回帰分析。一人当りの老人福祉費は面積が大きい県ほど多い。GDPの大きい県ほど少ない。

 

www.crosshyou.info

 の続きです。

今回は一人当りの老人福祉費を面積(対数をとったもの)と県内総生産(対数をとったもの)の二つの変数で回帰分析してみたいと思います。

まずは、それぞれの変数との散布図を描いてみます。

f:id:cross_hyou:20191016190159j:plain

f:id:cross_hyou:20191016190211j:plain

面積は関係なさそうですが、GDPは関係ありそうですね。

lm関数で重回帰分析のモデルを作り、調べていきます。

まずは、交差項も2乗項も入ったmaximumモデルからスタートします。

f:id:cross_hyou:20191016190613j:plain

logArea:logGDPの交差項のp値は0.2071ですので削除しましょう。

f:id:cross_hyou:20191016190818j:plain

anova関数でmodel1とmodel2を比較しました。p値が0.2071ですのでmodel2でいいですね。中身をみてみましょう。

f:id:cross_hyou:20191016191037j:plain


I(logArea^2)は必要なさそうですね。削除してみましょう。

f:id:cross_hyou:20191016191223j:plain

p値が0.612ですから、model2とmodel3は有意な差は無いです。従いまして、より単純なmodel3を採用します。summary関数で見てみます。

f:id:cross_hyou:20191016191442j:plain

あ、これですべての変数が有意になりました。モデル全体のp-valueは2.482e-10ですから有意なモデルです。Adjusted R-squaredは0.643ですから、都道府県別の一人当り老人福祉費は、面積と県内総生産、県内総生産の2乗で64.3%が説明できると言えます。

logAreaの係数は5.790とプラスですから、面積が大きい県ほど、一人当り老人福祉費は多いということですね。logGDPに関しては、logGDPの係数は-147, 2乗の項の係数は9.866ですから、

9.866logGDP^2 - 147.078logGDP = 9.866logGDP(logGDP - 14.907569)

と変換できますので、14.907569の半分の7.5ぐらいまでは、logGDPが0kら7.5ぐらいまではだんだんと減少して、それからはだんだんと増加していく、ということですね。

Y =  9.866 * X^2 - 147.078のグラフを描いてみましょう。

f:id:cross_hyou:20191016193304j:plain

f:id:cross_hyou:20191016193342j:plain

logGDPは6.25から8.00の範囲ですからこの範囲で考えると、6.25から7.5ぐらいまではlogGDPが大きいほど、一人当り老人福祉費は少なく、7.5から8.0の間ではlogGDPが大きいほど一人当り老人福祉費も大きいということですね。

model3の残差プロットを描きましょう。

f:id:cross_hyou:20191016193821j:plain

f:id:cross_hyou:20191016193836j:plain

今回は以上です。