www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の生活保護被保護実世帯数データの分析4 - R言語で人口当りのデータで回帰分析

 

www.crosshyou.info

 の続きです。

前回は生活保護被保護実世帯数そのものを反応変数にして回帰分析をしました。

今回は、人口のデータで割って、人口当りのデータに直して回帰分析してみましょう。

まずは、各変数を人口で割ります。

f:id:cross_hyou:20200115192037p:plain

人口は1000を掛けているので、1000人当りの世帯数です。

GDPは100万円単位なので、人口一人当りのGDP(百万円)になります。

面積は100を掛けているので、人口一人当りの面積(100ha)です。

それではsort関数で並び替えて表示してみます。

f:id:cross_hyou:20200115192414p:plain

大阪府が一番多いですね。富山県が一番少ないです。

 

人口一人当りのGDPはどうでしょうか?

f:id:cross_hyou:20200115192932p:plain
東京都が一番多く、奈良県が一番少ないです。

 

人口一人当りの面積(100ha)はどうでしょうか?

f:id:cross_hyou:20200115193335p:plain

北海道が一番広く、東京都が一番狭いです。

 

各変数間の散布図を描きます。plot関数ですね。

f:id:cross_hyou:20200115193649p:plain

f:id:cross_hyou:20200115193702p:plain

各変数間の相関はあまり無いようですね。cor関数でみてみます。

f:id:cross_hyou:20200115193849p:plain

GDPとAreaが負の相関ですね。人口密度が高いほうが、一人当りのGDPは大きいですね。

それでは、lm関数で回帰分析をしてみます。

f:id:cross_hyou:20200115194303p:plain

p-valueは6.851と0.05よりも低いので有意なモデルです。I(perGDP^2)はいらないようです。削除してモデルを単純化します。

f:id:cross_hyou:20200115194512p:plain

Pr(>F)の値が0.35と0.05よりも大きいので、modelとmodel2で有意な違いはありません。model2を見てみましょう。

f:id:cross_hyou:20200115194704p:plain

model2の式は、

保護世帯数 = 12.24 + 0.78 * perGDP + 0.83 * perArea + 0.019 * perArea^2 - 0.45 * perGDP * perArea

という式になります。

どの都道府県がモデルから推測される世帯数と乖離しているか見てみましょう。

f:id:cross_hyou:20200115195415p:plain

埼玉県が一番実際の世帯数が少なく、大阪府が一番多いです。

今回は以上です。