crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の工業用水量のデータの分析5 - R言語のlm()関数で回帰分析をする。(クロスセクション・データ)

f:id:cross_hyou:20211107172538j:plain

Photo by Tanya Nevidoma on Unsplash 

www.crosshyou.info

の続きです。

今回はR言語のlm()関数を使って回帰分析をしてみようと思います。

まずは、l_waterをl_kachiで回帰分析してします。

l_water: 工業用水量(m3/日)を対数変換したもの

l_kachi: 製造業付加価値額(百万円)を対数変換したもの

です。

data = subset(df, year == 2014)としているので、2014年のデータだけを使っています。

p-valueは3.929e-07と0に近いですので有意なモデルです。

l_kachiの係数が1.00です。つまり、kachi: 製造業付加価値額(百万円)が1%増加(減少)すると、water: 工業用水量(m3/日)が1%増加(減少)するということです。

plot()関数で、残差プロットをみてみましょう。

f:id:cross_hyou:20211107173426p:plain

f:id:cross_hyou:20211107173436p:plain

特に残差の不均一分散があるようには見えないです。

念のため、確認してみます。

f:id:cross_hyou:20211107173643p:plain

まずは、残差の2乗をl_kachiで回帰分析する方法をやってみました。p-valueが0.8079と0.05よりも大きいですので、Heteroskedasticity(不均一分散)とはいえないです。

lmtestパッケージのbptest()関数でもやってみます。

f:id:cross_hyou:20211107173917p:plain

p-valueが0.8027と0.05よりも大きいですので、やはりHomoskedasticity(均一分散)とみなしていいようです。

前回までの分析で、nosea: 海が無い県は1、海が有る県は0のダミー変数 が工業用水量の値に影響を及ぼすことがわかっていますので、noseaも説明変数に加えてみます。

f:id:cross_hyou:20211107174352p:plain

l_kachiの係数が少し大きくなり、1.1137になりました。noseaの係数はマイナス符号です。noseaが1、海が無い県はl_waterが有意に低いです。

残差プロットをみてみます。

f:id:cross_hyou:20211107174619p:plain

f:id:cross_hyou:20211107174629p:plain

bptest()関数で Heteroskedasticity の検定をしてみます。

f:id:cross_hyou:20211107174810p:plain

p-valueが0.3512なので、Heteroskedasticityの心配はないですね。

model1, model2の係数の信頼区間を確認しましょう。

confint()関数で確認できます。

f:id:cross_hyou:20211107175929p:plain

model1のl_kachiの係数は95%信頼区間で、0.661 ~ 1.340で、

model2のl_kachiの係数は95%信頼区間で、0.823 ~ 1.404です。

どちらのモデルでも、kachiがおおよそ1%増加(減少)すると、waterがおおよそ1%増加(減少)しますね。

今回は以上です。

次回は、

 

www.crosshyou.info

です。

初めから読むには、

 

www.crosshyou.info

です。