の続きです。
今回は、県内総生産当りの凶悪犯認知件数を人口と可住地面積で回帰分析しようと思います。
まずは、県内総生産当りの凶悪犯認知件数を算出します。
avgGDPは百万円単位なので、百万をかけて1円当りの件数にしています。富山県が一番少なく5.9件、大阪府が一番多く27件です。
それではグラフで分布の様子を見てみましょう。
右の裾野が広い分布ですね。
度数分布表もみてみましょう。
10件から15件のレンジが一番度数が多いです。21件です。
BadGDPとavgPop, BadGDPとavgAreaの散布図を見てみます。
avgAreaのほうは北海道が大きすぎて散布図がよくわからないですね。
対数にしてみます。
可住地面積は対数にしたほうがいいかもしれないですね。
それでは、R言語のlm関数で線形重回帰分析をしましょう。
avgPop:log(avg(Area)^2)はいらないですね。
p値が0.9392なのでmodel1もmodel2も有意な違いはありません。従って単純なmodel2のほうを採用します。
I(log(avgArea)^2)はいらないですね。
p値が0.1605と0.05よりも大きいので、model2とmodel3に統計的な有意な違いはありません。なので、より単純なmodel3をさらに調べます。
すべてが***になりました。p値は2.038e-08なので有意なモデルです。
avgPopの係数が正の値です。
I(avgPop^2)の係数が負の値ですが、係数の値は非常に小さいので、avgPopが大きいほど件数は多くなるということですね。
log(avgArea)の係数が負ですから面積が大きいほど件数は少なくなります。
lm関数で作成したモデルには、fitted.valuesという名前でモデルが予測した値が保存されています。実際の値との差を見てみましょう。
モデルが予測した件数よりも実際の件数が少ない県は神奈川県や愛知県です。その反対にモデルが予測した件数よりも実際の件数が多いのは沖縄県、高知県大阪府、埼玉県などです。
今回は以上です。