www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の生活保護被保護実世帯数データの分析3- R言語で回帰分析

 

www.crosshyou.info

 今回はR言語のlm関数で回帰分析をしてみます。

反応変数は、生活保護被保護実世帯数(avgHogo)で、説明変数は人口(avgPop), 可住地面積(acgArea), 県内総生産額(avgGDP)です。

まずは、相関マトリックスを見てみます。

f:id:cross_hyou:20200111153212p:plain

人口(avgPop)と県内総生産(avgGDP)の相関係数は0.9177とかなり相関が強いので、まずはavgPopとavgAreaを説明変数にしてみます。

f:id:cross_hyou:20200111153552p:plain

p-valueは8.34e-16と0.05よりも小さいので統計的に有意なモデルです。

avgPop:avgAreaは有意ではないようなので、削除します。

f:id:cross_hyou:20200111153826p:plain

avgPop:avgAreaを削除した、model2で問題ないです。確認します。

f:id:cross_hyou:20200111154018p:plain

avgAreaを削除してもよさそうですね。やってみます。

f:id:cross_hyou:20200111154155p:plain

model3でいいようです。確認します。

f:id:cross_hyou:20200111154302p:plain

model3のp-valueは2.2e-16よりも小さいので有意ですね。

散布図と回帰直線を描いてみます。

f:id:cross_hyou:20200111154556p:plain

f:id:cross_hyou:20200111154607p:plain

こんどは、説明変数をavgPopからavgGDPに変えてやってみます。

f:id:cross_hyou:20200111154808p:plain

avgGDP:avgAreaは必要ないようですので削除しましょう。

f:id:cross_hyou:20200111155019p:plain

nmodel2を見てみましょう

f:id:cross_hyou:20200111155211p:plain

avgAreaの係数のp値が0.0166なので有意ですね。nmodel2自体のp-valueは3.87e-14と0.05以下で有意です。

説明変数がavgGDP, avgAreaと二つあるので、coplot関数で散布図を描いてみましょう。

f:id:cross_hyou:20200111155918p:plain

f:id:cross_hyou:20200111155930p:plain

最後は、説明変数にavgPop, avgArea, avgGDPの三つを入れたモデルを調べてみましょう。

f:id:cross_hyou:20200111160231p:plain

avgPop:avgArea:avgGDPを削除してみましょう。update関数を使います。

f:id:cross_hyou:20200111160505p:plain

fmodel2を見てみます。

f:id:cross_hyou:20200111160658p:plain

avgPop:avgGDPは削除してかまわないようです。

f:id:cross_hyou:20200111160852p:plain

fmdel3を見てみます。

f:id:cross_hyou:20200111161007p:plain

avgPop:avgArea, avgArea:avgGDPの項とavgGDPの項が有意ですね。

model3, nmodel2, fmodel3の中でどれが一番いいのかな?残差プロットを見比べてみましょう。

f:id:cross_hyou:20200111161615p:plain

f:id:cross_hyou:20200111161626p:plain

どうなんでしょうね。。正直よくわかりません。

AIC関数でAIC(Akaike's Information Criterion)を算出してみました。

f:id:cross_hyou:20200111161819p:plain

AICが一番小さいのはfmodel3ですね。

もう一度fmodel3を見てみます。

f:id:cross_hyou:20200111162427p:plain

生活保護被保護実世帯数は、人口、可住地面積、県内総生産の3つの変数と関連があることがわかりました。

今回は以上です。