の続きです。
今回は、1978年の空き家率で2018年の借家率を回帰分析してみます。
R言語のlm関数を使います。
p-valueが2.664e-13と0.05よりも低いので、有意なモデルです。Intercept、rent_ratio_1978の係数のp値も0.05よりも低いです。
Adjusted R-squaredが0.692です。
このmodel1にeastwest, 東日本と西日本のファクターを加えてみましょう。
eastwestのp値は0.336と0.05よりも大きいので、eastwestを加えても回帰分析モデルの性能はよくならないことがわかりました。Adjusted R-squaredも0.6916とわずかですが低下しています。
それでは、japanpacificを加えてみましょう。
Adjusted R-squaredは0.6959と上昇しましたが、japanpacificのp値は0.05よりも大きいのでmodel1と大差なさそうです。
anova関数でmodel1とmodel2を比較してみましょう。
Pr(>F)が0.2854と0.05よりも大きいです。model1とmodel3は有意な違いがありません。
region、北海道東北、関東、東海などの地域区分を加えてみます。
九州沖縄だけ、Pr(>|t|)が0.05よりも小さいですね。Adjusted R-squaredは0.788になりました。
anova関数でmodel1とmodel4を比較してみます。
Pr(>F)が0.002649と0.05よりも小さいですから、model1とmodel4は有意な違いがあります。そして、model4のほうがAdjusted r-squaredが大きいですから、model4のほうがよさそうです。
model4は九州沖縄という1つの地域だけが特殊な感じです。
そこで、新しい変数、九州沖縄か、それ以外か、という変数を作成して分析してみましょう。
ifelse関数でregionが九州沖縄ならYes, そうでないならNoという変数を作りました。
summary関数で数を数えようとしたら、文字列型なので数えられないです。
as.factor関数でファクター型に変換します。
ファクター型になっているので、summary関数で数をかぞえることができました。
このkyushu_okimwaというファクターをmodel1に加えてみます。
kyushu_okinwaのp値は0.05以下です。Adjusted R-squaredは0.7795とmodel4の0.788よりもいいです。
anova関数でmodel4とmodel5を比較してみます。
Pr(>F)が0.2839と0.05よりも大きいです。つまり、model4とmodel5では有意な違いはありません。なので、より単純な、しかもAdjusted R-squaredも大きいmodel5のほうがいいモデルです。
model5の残差プロットを描いてみます。
model5の式の係数を確認しましょう。
つまり、九州沖縄の県は、
2018年の借家率 = 0.09469473 + 0.56062211 * 1978年の借家率 + 0.04786152
それ以外の都道府県は、
2018年の借家率 = 0.09469473 + 0.56062211 * 1978年の借家率
ということです。
これをグラフで表現してみます。geom_polt関数とgeom_abline関数を使います。
九州沖縄の借家率はその他の地域と比べると0.04785152だけ高いということですね。
今回は以上です。