www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析４ - R言語のlm関数で回帰分析

データ分析

www.crosshyou.info

の続きです。

今回はlogperInc(1人当り課税所得を対数変換した値)をlogMitsu(人口密度を対数変換した値), Ratio1(第1次産業就業者数の割合), Ratio2(第2次産業就業者数の割合), Tko(東京23区かどうか)の4つの変数で回帰分析をしてみます。Ratio3(第3次産業就業者数の割合)を入れていないのは、Ratio3 = 100 - Ratio1 - Ratio2とRatio1とRatio3を再現できるからです。

回帰分析はR言語のlm関数で回帰分析できます。

f:id:cross_hyou:20200520132832j:plain

一番下の行にこのモデルのp-valueがあります。2.2e-16よりも小さいので有意な統計モデルです。

残差プロットのグラフを見てみます。

f:id:cross_hyou:20200520133505j:plain

f:id:cross_hyou:20200520133521j:plain

実際のlogperIncとモデルが推定したlogperIncの値の散布図を見てみます。

f:id:cross_hyou:20200520133801j:plain

f:id:cross_hyou:20200520133817j:plain

bg = 2 + as.numeric(data$Tko) の部分で東京23区なら緑色、そうでないなら赤色にしています。東京23区は基本的にlogperIncが他の都市よりも大きいですよね。

説明変数でTkoを入れないモデルも見てみましょう。

f:id:cross_hyou:20200520134210j:plain

p-valueは2.634e-12と0.05よりも低いので有意なモデルです。Multiple R-Squaredが0.4392です。さっきのモデルは0.8384ですから半分ぐらいになってしましました。

残差プロットを見てみます。

f:id:cross_hyou:20200520134651j:plain

f:id:cross_hyou:20200520134705j:plain

実際の値とモデルの推計値を比べてみます。

f:id:cross_hyou:20200520135447j:plain

f:id:cross_hyou:20200520135535j:plain

Tko(東京23区かどうか)を説明変数に入れないと予測値が実際の値とかなり乖離してしまうことがわかります。

今回は以上です。