www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の生活保護被保護実世帯数データの分析６ - R言語で世帯数の伸び率をダミー変数を加えて回帰分析

データ分析

www.crosshyou.info

の続きです。

今回は、世帯数の伸び率をR言語で回帰分析してみたいと思います。

まずは、どのようなデータか再確認します。summary関数を使います。

f:id:cross_hyou:20200118115559p:plain

最低で、1.143倍、最大で1.970倍、平均が1.459倍、中央値が1.517倍です。

hist関数でヒストグラムを描きます。

f:id:cross_hyou:20200118115915p:plain

f:id:cross_hyou:20200118115950p:plain

perGDP, perAreaとの散布図を見てみましょう。

f:id:cross_hyou:20200118120259p:plain

f:id:cross_hyou:20200118120309p:plain

左の散布図はperGDPがX軸ですが、右にポツンと点がありますね。これは東京の点ですね。東京ダミーという変数を用意してこれも回帰分析の変数に加えましょう。

右の散布図では右端の点は北海道ですから、北海道ダミーというのも加えましょう。

f:id:cross_hyou:20200118120851p:plain

これで回帰分析をします。lm関数を使います。

f:id:cross_hyou:20200118121111p:plain

p-valueが0.1314なのでモデル自体が有意ではないですね。生活保護の伸びは一人当りのGDPや一人当りの可住地面積とは関係なさそうですね。とりあえず、perGDP:perAreaを削除してもっと単純なモデルを作成します。update関数を使います。

f:id:cross_hyou:20200118121422p:plain

anova関数でmodel1とmodel2を比較しました。Pr(>F)が0.5175と0.05よりも大きいですから、model1とmodel2で有意な違いは無いです。model2を見てみます。

f:id:cross_hyou:20200118121625p:plain

p-valueは0.08639と0.05よりは大きいので有意なモデルではないです。でも、model1よりはp-valueは小さくなりました。perGDPを削除してみます。

f:id:cross_hyou:20200118121846p:plain

model2とmodel3では有意な違いは無いです。model3を見てみましょう。

f:id:cross_hyou:20200118122002p:plain

p-valueが0.04901と0.05以下になりました。有意なモデルになりました。TKがいらないようです。削除します。

f:id:cross_hyou:20200118122154p:plain

model3とmodel4で有意な違いはありません。model4を見てみます。

f:id:cross_hyou:20200118122325p:plain

p-valueは0.02167なので有意なモデルです。HKADはいらないようです。削除しましょう。結局、東京ダミーも北海道ダミーも必要なかったですね。

f:id:cross_hyou:20200118122519p:plain

model4とmodel5では有意な違いはありません。model5を見てみます。

f:id:cross_hyou:20200118122701p:plain

p-valueは0.00747ですから1%以下の水準で有意な統計モデルです。perAreaの係数がマイナスですので、perAreaが大きいほど、伸び率は小さいということです。

散布図と回帰直線を重ねてみます。

f:id:cross_hyou:20200118123028p:plain

f:id:cross_hyou:20200118123038p:plain

なんか、直線で回帰するより、曲線で回帰するほうがいいような気がします。

念のため確かめます。

f:id:cross_hyou:20200118123309p:plain

Pr(>F)が0.8127ですから、2乗項を追加しても有意な違いにはならないですね。

今回は以上です。