www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の凶悪犯認知件数の分析６ - R言語で県内総生産当りの凶悪犯認知件数を人口と可住地面積で回帰分析。

データ分析

www.crosshyou.info

の続きです。

今回は、県内総生産当りの凶悪犯認知件数を人口と可住地面積で回帰分析しようと思います。

まずは、県内総生産当りの凶悪犯認知件数を算出します。

f:id:cross_hyou:20191107190348p:plain

avgGDPは百万円単位なので、百万をかけて1円当りの件数にしています。富山県が一番少なく5.9件、大阪府が一番多く27件です。

それではグラフで分布の様子を見てみましょう。

f:id:cross_hyou:20191107190904p:plain

f:id:cross_hyou:20191107190915p:plain

右の裾野が広い分布ですね。

度数分布表もみてみましょう。

f:id:cross_hyou:20191107191120p:plain

10件から15件のレンジが一番度数が多いです。21件です。

BadGDPとavgPop, BadGDPとavgAreaの散布図を見てみます。

f:id:cross_hyou:20191107191514p:plain

f:id:cross_hyou:20191107191532p:plain

avgAreaのほうは北海道が大きすぎて散布図がよくわからないですね。

対数にしてみます。

f:id:cross_hyou:20191107191937p:plain

f:id:cross_hyou:20191107192004p:plain

可住地面積は対数にしたほうがいいかもしれないですね。

それでは、R言語のlm関数で線形重回帰分析をしましょう。

f:id:cross_hyou:20191107192304p:plain

avgPop:log(avg(Area)^2)はいらないですね。

f:id:cross_hyou:20191107192603p:plain

p値が0.9392なのでmodel1もmodel2も有意な違いはありません。従って単純なmodel2のほうを採用します。

f:id:cross_hyou:20191107192756p:plain

I(log(avgArea)^2)はいらないですね。

f:id:cross_hyou:20191107193308p:plain

p値が0.1605と0.05よりも大きいので、model2とmodel3に統計的な有意な違いはありません。なので、より単純なmodel3をさらに調べます。

f:id:cross_hyou:20191107193543p:plain

すべてが***になりました。p値は2.038e-08なので有意なモデルです。

avgPopの係数が正の値です。

I(avgPop^2)の係数が負の値ですが、係数の値は非常に小さいので、avgPopが大きいほど件数は多くなるということですね。

log(avgArea)の係数が負ですから面積が大きいほど件数は少なくなります。

lm関数で作成したモデルには、fitted.valuesという名前でモデルが予測した値が保存されています。実際の値との差を見てみましょう。

f:id:cross_hyou:20191107194728p:plain

モデルが予測した件数よりも実際の件数が少ない県は神奈川県や愛知県です。その反対にモデルが予測した件数よりも実際の件数が多いのは沖縄県、高知県大阪府、埼玉県などです。

今回は以上です。