Photo by Tanya Nevidoma on Unsplash
の続きです。
今回はR言語のlm()関数を使って回帰分析をしてみようと思います。
まずは、l_waterをl_kachiで回帰分析してします。
l_water: 工業用水量(m3/日)を対数変換したもの
l_kachi: 製造業付加価値額(百万円)を対数変換したもの
です。
data = subset(df, year == 2014)としているので、2014年のデータだけを使っています。
p-valueは3.929e-07と0に近いですので有意なモデルです。
l_kachiの係数が1.00です。つまり、kachi: 製造業付加価値額(百万円)が1%増加(減少)すると、water: 工業用水量(m3/日)が1%増加(減少)するということです。
plot()関数で、残差プロットをみてみましょう。
特に残差の不均一分散があるようには見えないです。
念のため、確認してみます。
まずは、残差の2乗をl_kachiで回帰分析する方法をやってみました。p-valueが0.8079と0.05よりも大きいですので、Heteroskedasticity(不均一分散)とはいえないです。
lmtestパッケージのbptest()関数でもやってみます。
p-valueが0.8027と0.05よりも大きいですので、やはりHomoskedasticity(均一分散)とみなしていいようです。
前回までの分析で、nosea: 海が無い県は1、海が有る県は0のダミー変数 が工業用水量の値に影響を及ぼすことがわかっていますので、noseaも説明変数に加えてみます。
l_kachiの係数が少し大きくなり、1.1137になりました。noseaの係数はマイナス符号です。noseaが1、海が無い県はl_waterが有意に低いです。
残差プロットをみてみます。
bptest()関数で Heteroskedasticity の検定をしてみます。
p-valueが0.3512なので、Heteroskedasticityの心配はないですね。
model1, model2の係数の信頼区間を確認しましょう。
confint()関数で確認できます。
model1のl_kachiの係数は95%信頼区間で、0.661 ~ 1.340で、
model2のl_kachiの係数は95%信頼区間で、0.823 ~ 1.404です。
どちらのモデルでも、kachiがおおよそ1%増加(減少)すると、waterがおおよそ1%増加(減少)しますね。
今回は以上です。
次回は、
です。
初めから読むには、
です。