www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の長屋建住宅数のデータの分析4 - 回帰分析によると、人口が増えると長屋建住宅数は増え、県内総生産額が増えると長屋建住宅数は減る。

Generated by Bing Image Creator : Photographic autumn festival

www.crosshyou.info

の続きです。

今回は、回帰分析をしてみます。

被説明変数をl_totalにして、説明変数をyear, l_pop, l_gdpにしてみましょう。

まず、散布図を描いてみます。

散布図を見ると、yearによる違いは無さそうです。


lm()関数で回帰分析してみます。

結果をsummary()関数でみてみます。

yearのp値は0.597, 0.596と0.05よりも大きな値ですので、yearは有意な説明変数ではありませんね。yearの無いモデルを試してみます。

anova()関数で2つのモデルを比較してみます。

p値が0.8291なので、lm_modとlm_mod2の二つは統計的に有意な違いはありません。

モデルは単純なほうが良いので、lm_mod2のほうが良いモデルですね。

改めて、lm_mod2をみてみましょう。こんどは、summary()関数ではなくて、moderndiveパッケージのget_regression_table()関数を使ってみます。

l_populationの係数が1.65ということは、人口が1%増えると、長屋建住宅数は1.65%増える、ということです。

l_gdpの係数は-0.544なので、県内総生産額が1%増えると、長屋建住宅数は0.544%減る、ということです。

人口が増えれば、長屋建住宅数は増えるのは当たり前ですが、県内総生産額が増えると長屋建住宅数が減る、というのは興味深いですね。

回帰分析では、残差が均一に分散していないと、上記の統計的な推計は有効ではありません。残差プロットを描いてみます。

このプロットを見る限り、残差は均一分散していると言えそうです。


一応、計算して確かめてみましょう。

回帰式全体のp-valueは0.6787, l_populationの係数のp値は0.530, l_gdpの係数のp値は0.614とすべて有意ではありませんので、lm_mod2のモデルは不均一分散とは言えないですね。
今回は以上です。

次回は

www.crosshyou.info

です。

 

はじめから読むには、

www.crosshyou.info

です。