crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の空き家・持ち家・借家数のデータ分析5 - R言語のlm関数で借家率を回帰分析する。

 

www.crosshyou.info

 の続きです。

今回は、1978年の空き家率で2018年の借家率を回帰分析してみます。

R言語のlm関数を使います。

f:id:cross_hyou:20201110115358p:plain



p-valueが2.664e-13と0.05よりも低いので、有意なモデルです。Intercept、rent_ratio_1978の係数のp値も0.05よりも低いです。

Adjusted R-squaredが0.692です。

このmodel1にeastwest, 東日本と西日本のファクターを加えてみましょう。

f:id:cross_hyou:20201110110443p:plain

eastwestのp値は0.336と0.05よりも大きいので、eastwestを加えても回帰分析モデルの性能はよくならないことがわかりました。Adjusted R-squaredも0.6916とわずかですが低下しています。

それでは、japanpacificを加えてみましょう。

f:id:cross_hyou:20201110110816p:plain

Adjusted R-squaredは0.6959と上昇しましたが、japanpacificのp値は0.05よりも大きいのでmodel1と大差なさそうです。

anova関数でmodel1とmodel2を比較してみましょう。

f:id:cross_hyou:20201110111128p:plain

Pr(>F)が0.2854と0.05よりも大きいです。model1とmodel3は有意な違いがありません。

region、北海道東北、関東、東海などの地域区分を加えてみます。

f:id:cross_hyou:20201110111632p:plain

九州沖縄だけ、Pr(>|t|)が0.05よりも小さいですね。Adjusted R-squaredは0.788になりました。

anova関数でmodel1とmodel4を比較してみます。

f:id:cross_hyou:20201110112012p:plain

Pr(>F)が0.002649と0.05よりも小さいですから、model1とmodel4は有意な違いがあります。そして、model4のほうがAdjusted r-squaredが大きいですから、model4のほうがよさそうです。

model4は九州沖縄という1つの地域だけが特殊な感じです。

そこで、新しい変数、九州沖縄か、それ以外か、という変数を作成して分析してみましょう。

 

f:id:cross_hyou:20201110112834p:plain

ifelse関数でregionが九州沖縄ならYes, そうでないならNoという変数を作りました。

summary関数で数を数えようとしたら、文字列型なので数えられないです。

as.factor関数でファクター型に変換します。

 

f:id:cross_hyou:20201110112956p:plain

ファクター型になっているので、summary関数で数をかぞえることができました。

このkyushu_okimwaというファクターをmodel1に加えてみます。

f:id:cross_hyou:20201110113255p:plain

kyushu_okinwaのp値は0.05以下です。Adjusted R-squaredは0.7795とmodel4の0.788よりもいいです。

anova関数でmodel4とmodel5を比較してみます。

f:id:cross_hyou:20201110113611p:plain

Pr(>F)が0.2839と0.05よりも大きいです。つまり、model4とmodel5では有意な違いはありません。なので、より単純な、しかもAdjusted R-squaredも大きいmodel5のほうがいいモデルです。

model5の残差プロットを描いてみます。

f:id:cross_hyou:20201110113939p:plain

f:id:cross_hyou:20201110113952p:plain

model5の式の係数を確認しましょう。

f:id:cross_hyou:20201110114155p:plain

つまり、九州沖縄の県は、

2018年の借家率 = 0.09469473 + 0.56062211 * 1978年の借家率 + 0.04786152

それ以外の都道府県は、

2018年の借家率 = 0.09469473 + 0.56062211 * 1978年の借家率

ということです。

これをグラフで表現してみます。geom_polt関数とgeom_abline関数を使います。

f:id:cross_hyou:20201110115136p:plain

f:id:cross_hyou:20201110115149p:plain

九州沖縄の借家率はその他の地域と比べると0.04785152だけ高いということですね。

今回は以上です。