www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の消防・教育・警察部門の職員数のデータ分析６ - 県内総生産額の伸び率を回帰分析する。

データ分析

www.crosshyou.info

の続きです。

今回はGDP(県内総生産額の伸び率)を他の変数で、回帰分析してみます。

hist関数で各変数のヒストグラムを描いてみます。sapply関数でいちどに描きます。

f:id:cross_hyou:20200426145612j:plain

f:id:cross_hyou:20200426145626j:plain

どの変数も中央が一番多い山型の分布です。

cor関数で変数同士の相関マトリックスを調べましょう。

f:id:cross_hyou:20200426145819j:plain

GDPとの相関を見ると、Popuが0.4で一番高く、Eduが2番目、Police、Fireと続きます。

pairs関数で散布図マトリックスを描きます。

f:id:cross_hyou:20200426150039j:plain

f:id:cross_hyou:20200426150059j:plain

2列目がGDPとの各変数の散布図です。各変数との相関関係は強いとはいえないですね。

lm関数で回帰分析をします。

f:id:cross_hyou:20200426150316j:plain

p-valueは0.0407と0.05よりも小さいですので、有意なモデルです。Popuにだけ有意のマークがついています。

Fireを削除してモデルを単純化しましょう。

f:id:cross_hyou:20200426150526j:plain

anova関数でmodel1とmodel2を比較しました。Pr(>F)が0.8832と0.05よりも大きいので、model1とmodel2では有意な違いはありません。

model2を見てみましょう。

f:id:cross_hyou:20200426150736j:plain

Policeを削除してみます。

f:id:cross_hyou:20200426150823j:plain

Pr(>F)の値が0.3293と0.05よりも大きいですから、model2とmodel3では有意な違いはありません。

model3を見てみます。

f:id:cross_hyou:20200426150954j:plain

Eduを削除してみます。

f:id:cross_hyou:20200426151040j:plain

model3とmodel4では有意な違いはないです。

model4を見てみましょう。

f:id:cross_hyou:20200426151235j:plain

p-valueは0.005151なので、有意なモデルです。

県内総生産額の伸び率 = 0.4177 + 0.5907 x 人口の伸び率

という回帰式です。

残差をグラフにしてみましょう。

f:id:cross_hyou:20200426152032j:plain

f:id:cross_hyou:20200426152047j:plain

水平線が0の線なので、水平線よりも上にある都道府県は実際の伸び率が回帰モデルから計算される予測値よりも大きいことになります。

群馬、宮城、岩手などは実際の伸びのほうが高く、鳥取や福井は実際の伸びのほうが低いです。

今回は以上です。