今回はR言語のlm関数で回帰分析をしてみます。
反応変数は、生活保護被保護実世帯数(avgHogo)で、説明変数は人口(avgPop), 可住地面積(acgArea), 県内総生産額(avgGDP)です。
まずは、相関マトリックスを見てみます。
人口(avgPop)と県内総生産(avgGDP)の相関係数は0.9177とかなり相関が強いので、まずはavgPopとavgAreaを説明変数にしてみます。
p-valueは8.34e-16と0.05よりも小さいので統計的に有意なモデルです。
avgPop:avgAreaは有意ではないようなので、削除します。
avgPop:avgAreaを削除した、model2で問題ないです。確認します。
avgAreaを削除してもよさそうですね。やってみます。
model3でいいようです。確認します。
model3のp-valueは2.2e-16よりも小さいので有意ですね。
散布図と回帰直線を描いてみます。
こんどは、説明変数をavgPopからavgGDPに変えてやってみます。
avgGDP:avgAreaは必要ないようですので削除しましょう。
nmodel2を見てみましょう
avgAreaの係数のp値が0.0166なので有意ですね。nmodel2自体のp-valueは3.87e-14と0.05以下で有意です。
説明変数がavgGDP, avgAreaと二つあるので、coplot関数で散布図を描いてみましょう。
最後は、説明変数にavgPop, avgArea, avgGDPの三つを入れたモデルを調べてみましょう。
avgPop:avgArea:avgGDPを削除してみましょう。update関数を使います。
fmodel2を見てみます。
avgPop:avgGDPは削除してかまわないようです。
fmdel3を見てみます。
avgPop:avgArea, avgArea:avgGDPの項とavgGDPの項が有意ですね。
model3, nmodel2, fmodel3の中でどれが一番いいのかな?残差プロットを見比べてみましょう。
どうなんでしょうね。。正直よくわかりません。
AIC関数でAIC(Akaike's Information Criterion)を算出してみました。
AICが一番小さいのはfmodel3ですね。
もう一度fmodel3を見てみます。
生活保護被保護実世帯数は、人口、可住地面積、県内総生産の3つの変数と関連があることがわかりました。
今回は以上です。