の続きです。
今回はlogperInc(1人当り課税所得を対数変換した値)をlogMitsu(人口密度を対数変換した値), Ratio1(第1次産業就業者数の割合), Ratio2(第2次産業就業者数の割合), Tko(東京23区かどうか)の4つの変数で回帰分析をしてみます。Ratio3(第3次産業就業者数の割合)を入れていないのは、Ratio3 = 100 - Ratio1 - Ratio2とRatio1とRatio3を再現できるからです。
回帰分析はR言語のlm関数で回帰分析できます。
一番下の行にこのモデルのp-valueがあります。2.2e-16よりも小さいので有意な統計モデルです。
残差プロットのグラフを見てみます。
実際のlogperIncとモデルが推定したlogperIncの値の散布図を見てみます。
bg = 2 + as.numeric(data$Tko) の部分で東京23区なら緑色、そうでないなら赤色にしています。東京23区は基本的にlogperIncが他の都市よりも大きいですよね。
説明変数でTkoを入れないモデルも見てみましょう。
p-valueは2.634e-12と0.05よりも低いので有意なモデルです。Multiple R-Squaredが0.4392です。さっきのモデルは0.8384ですから半分ぐらいになってしましました。
残差プロットを見てみます。
実際の値とモデルの推計値を比べてみます。
Tko(東京23区かどうか)を説明変数に入れないと予測値が実際の値とかなり乖離してしまうことがわかります。
今回は以上です。