Photo by david Griffiths on Unsplash
の続きです。
今回は前回作成した、2001年と2013年の差分のデータで回帰分析をしてみようと思います。
まず。各変数の散布図をみてみます。
firm_pop_diffとfirm_gdp_diffは非常に相関が強いですね。
相関係数をみてみます。
firm_pop_diffとfirm_gdp_diffの相関係数は0.973とかなりの高相関です。
firm_diff: バス会社の増減をpop_diff: 人口の増減とgdp_diff: 県内総生産額の増減で回帰分析します。
pop_diffの係数が有意です。プラスの符号なので、県内総生産額の増減が同じだったらば、人口が増えるとバス会社も増えるということです。
pop_diffの係数の符号がマイナスです。これは人口の増減が同じならば、県内総生産額が増えるとバス会社の数が減る、ということですが、係数は有意ではないので、ゼロとかわらないので、県内総生産額は関係あるとは言えない、ということですね。
残差プロットを見てみます。
残差の分散は一定のパターンは無いようです。
Breush-Pegan検定をして確認します。
lmtestというパッケージを読み込み、bptest()関数を使います。
p-valueが0.826ということは、Cov(残差, 説明変数) = 0 という帰無仮説を棄却できません。つまり残差は説明変数と無相関ということです。
bptest関数を使わないでBreush-Pegan検定をしてみます。
resid(lm_model1)が残差です。残差の2乗を説明変数で回帰分析して、F-Testのp-valueを見ます。p-value = 0.8355です。つまり、残差の2乗(残差の平均は0なので、残差の分散は残差の分散です)は説明変数とは無相関ということです。
回帰分析の係数をわかりやすく表示してみます。
pop_diffの係数は0.00008です。人口が10万人増えるとバス会社の数が8社増えるということです。
人口の一番増えたところはどこでしょうか?
東京都が114万人増えています。11.4*8=92ぐらいです。切片が59.27なので60社ぐらい増えますので、回帰モデルだと、152社ぐらい増える勘定ですね。実際は187社増えています。まあまあですかね。
今回は以上です。
次回は
です。
はじめから読むには、
です。