Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

建設総合統計のデータ分析5 - R言語で重回帰分析。民間の建設額を公共の建設額で重回帰分析。

 

www.crosshyou.info

 の続きです。

今回は、Minkan(民間)をKoKen(公共建築), KoHou(公共住宅), KoDob(公共土木)という3つの変数で回帰分析してみます。

まずは、plot関数で散布図を描いてみます。

f:id:cross_hyou:20200226200751p:plain

f:id:cross_hyou:20200226200802p:plain

正の相関がある感じです。

cor関数で相関係数も調べましょう。

f:id:cross_hyou:20200226201120p:plain

MinkanとKoKen, KoHou, KoDobは緩い相関ですが、KoKen, KoHou, KoDobの3つの変数同士かかなり強い相関ですね。こういうのは多重共線性といって良くないのですが、とりあえずやってみます。

lm関数で重回帰分析をします。

f:id:cross_hyou:20200226201523p:plain

KoHou:KoDobは必要ないですね。update関数で削除したモデルを作り、anova関数で比較します。

f:id:cross_hyou:20200226201833p:plain


p値が0.7195ですので、model1とmodel2で有意な違いは無いです。model2を見てみます。

f:id:cross_hyou:20200226202001p:plain

これでいいですね。model2の残差プロットを見てみます。

f:id:cross_hyou:20200226202142p:plain

f:id:cross_hyou:20200226202152p:plain

残差が特定のパターンでないのでいいと思います。

このmodel2と前回作成したmodel4を比較してみましょう。

f:id:cross_hyou:20200226202350p:plain

前回作成したモデルは、Minkan ~ Kokyo * Year というモデルでした。p値が0.00715と0.05よりも小さいので、model2とmodel4では有意な違いがあります。

AIC関数でどちらのモデルが良いモデルか見てみます。

f:id:cross_hyou:20200226202556p:plain

AICは値が小さいほどいいので、model2のほうが良いモデルということですね。

前回と同じように残差を箱ひげ図にして比べてみます。

f:id:cross_hyou:20200226203103p:plain

f:id:cross_hyou:20200226203114p:plain

model2のほうが狭い範囲に残差が集まっていますね。

hist関数でヒストグラムも比較してみましょう。

f:id:cross_hyou:20200226203746p:plain

f:id:cross_hyou:20200226203758p:plain

model2のヒストグラムのほうが両サイドのグラフが低いですね。

今回は以上です。