の続きです。
今回は、世帯数の伸び率をR言語で回帰分析してみたいと思います。
まずは、どのようなデータか再確認します。summary関数を使います。
最低で、1.143倍、最大で1.970倍、平均が1.459倍、中央値が1.517倍です。
hist関数でヒストグラムを描きます。
perGDP, perAreaとの散布図を見てみましょう。
左の散布図はperGDPがX軸ですが、右にポツンと点がありますね。これは東京の点ですね。東京ダミーという変数を用意してこれも回帰分析の変数に加えましょう。
右の散布図では右端の点は北海道ですから、北海道ダミーというのも加えましょう。
これで回帰分析をします。lm関数を使います。
p-valueが0.1314なのでモデル自体が有意ではないですね。生活保護の伸びは一人当りのGDPや一人当りの可住地面積とは関係なさそうですね。とりあえず、perGDP:perAreaを削除してもっと単純なモデルを作成します。update関数を使います。
anova関数でmodel1とmodel2を比較しました。Pr(>F)が0.5175と0.05よりも大きいですから、model1とmodel2で有意な違いは無いです。model2を見てみます。
p-valueは0.08639と0.05よりは大きいので有意なモデルではないです。でも、model1よりはp-valueは小さくなりました。perGDPを削除してみます。
model2とmodel3では有意な違いは無いです。model3を見てみましょう。
p-valueが0.04901と0.05以下になりました。有意なモデルになりました。TKがいらないようです。削除します。
model3とmodel4で有意な違いはありません。model4を見てみます。
p-valueは0.02167なので有意なモデルです。HKADはいらないようです。削除しましょう。結局、東京ダミーも北海道ダミーも必要なかったですね。
model4とmodel5では有意な違いはありません。model5を見てみます。
p-valueは0.00747ですから1%以下の水準で有意な統計モデルです。perAreaの係数がマイナスですので、perAreaが大きいほど、伸び率は小さいということです。
散布図と回帰直線を重ねてみます。
なんか、直線で回帰するより、曲線で回帰するほうがいいような気がします。
念のため確かめます。
Pr(>F)が0.8127ですから、2乗項を追加しても有意な違いにはならないですね。
今回は以上です。