の続きです。
前回は生活保護被保護実世帯数そのものを反応変数にして回帰分析をしました。
今回は、人口のデータで割って、人口当りのデータに直して回帰分析してみましょう。
まずは、各変数を人口で割ります。
人口は1000を掛けているので、1000人当りの世帯数です。
GDPは100万円単位なので、人口一人当りのGDP(百万円)になります。
面積は100を掛けているので、人口一人当りの面積(100ha)です。
それではsort関数で並び替えて表示してみます。
大阪府が一番多いですね。富山県が一番少ないです。
人口一人当りのGDPはどうでしょうか?
東京都が一番多く、奈良県が一番少ないです。
人口一人当りの面積(100ha)はどうでしょうか?
北海道が一番広く、東京都が一番狭いです。
各変数間の散布図を描きます。plot関数ですね。
各変数間の相関はあまり無いようですね。cor関数でみてみます。
GDPとAreaが負の相関ですね。人口密度が高いほうが、一人当りのGDPは大きいですね。
それでは、lm関数で回帰分析をしてみます。
p-valueは6.851と0.05よりも低いので有意なモデルです。I(perGDP^2)はいらないようです。削除してモデルを単純化します。
Pr(>F)の値が0.35と0.05よりも大きいので、modelとmodel2で有意な違いはありません。model2を見てみましょう。
model2の式は、
保護世帯数 = 12.24 + 0.78 * perGDP + 0.83 * perArea + 0.019 * perArea^2 - 0.45 * perGDP * perArea
という式になります。
どの都道府県がモデルから推測される世帯数と乖離しているか見てみましょう。
埼玉県が一番実際の世帯数が少なく、大阪府が一番多いです。
今回は以上です。