の続きです。
今回はGDP(県内総生産額の伸び率)を他の変数で、回帰分析してみます。
hist関数で各変数のヒストグラムを描いてみます。sapply関数でいちどに描きます。
どの変数も中央が一番多い山型の分布です。
cor関数で変数同士の相関マトリックスを調べましょう。
GDPとの相関を見ると、Popuが0.4で一番高く、Eduが2番目、Police、Fireと続きます。
pairs関数で散布図マトリックスを描きます。
2列目がGDPとの各変数の散布図です。各変数との相関関係は強いとはいえないですね。
lm関数で回帰分析をします。
p-valueは0.0407と0.05よりも小さいですので、有意なモデルです。Popuにだけ有意のマークがついています。
Fireを削除してモデルを単純化しましょう。
anova関数でmodel1とmodel2を比較しました。Pr(>F)が0.8832と0.05よりも大きいので、model1とmodel2では有意な違いはありません。
model2を見てみましょう。
Policeを削除してみます。
Pr(>F)の値が0.3293と0.05よりも大きいですから、model2とmodel3では有意な違いはありません。
model3を見てみます。
Eduを削除してみます。
model3とmodel4では有意な違いはないです。
model4を見てみましょう。
p-valueは0.005151なので、有意なモデルです。
県内総生産額の伸び率 = 0.4177 + 0.5907 x 人口の伸び率
という回帰式です。
残差をグラフにしてみましょう。
水平線が0の線なので、水平線よりも上にある都道府県は実際の伸び率が回帰モデルから計算される予測値よりも大きいことになります。
群馬、宮城、岩手などは実際の伸びのほうが高く、鳥取や福井は実際の伸びのほうが低いです。
今回は以上です。