の続きです。今回はR言語のlm関数で重回帰分析をしてみます。
反応変数は、ボランティア活動行動者率(VOLU)です。説明変数は人口(POP), 面積(AREA), 県内総生産(GDP)です。
前回の分析で、対数値をとったほうがよさそうだとわかりましたので、対数値を説明変数にします。
p-valueは3.441e-06ですので有意なモデルです。しかし、どの変数のp値も0.05よりも大きいですね。とりあえず、log(POP):log(AREA):log(GDP)を削除したmodel2を調べましょう。
p-valueは2.855e-06で有意です。model1とmodel2で大きな違いがあるかどうかanova関数でみてみます。
p値は0.1641なので、二つのモデルに有意な違いは無い、ということです。
model2からlog(AREA):log(GDP)を削除したモデル、model3を調べましょう。
p-valueが9.141e-07なので有意なモデルです。
model2とmodel3を比較します。
p値が0.8274なので、model2とmodel3には有意な違いは無いです。
log(POP):log(GDP)を削除したmodel4を調べます。
p-valueは3.567e-07なので有意なモデルです。
model3とmodel4をanova関数で比較します。
p値が0.3977なので、二つのモデルに有意な違いは無いです。
log(POP):log(AREA)を削除したmodel5を調べます。
p-value = 1.5e-07なので有意なモデルです。Intercept, log(POP), log(AREA)の係数のp値が0.05以下になりましたね。
model4とmodel5を比較します。
p値が0.2802なので、二つのモデルに有意な違いはありません。
log(GDP)を削除したmodel6を調べます。
p-valueは1.344e-07なので有意なモデルです。
model5とmodel6を比較します。
p値は0.0796と0.05以上なので有意な違いは無いです。
さらに、log(AREA)を削除したmodel7を調べます。model7はlog(POP)だけが説明変数の単回帰モデルです。
p-valueは9.204e-08なので有意です。
model6とmodel7を比較します。
p値が0.07129なので有意な違いは無いです。
重回帰分析をしたつもりが、最終的には、log(POP)だけが説明変数の単回帰分析になってしまいました。
VOLU = 66.195 - 2.628 * log(POP)
という回帰式です。
VOLUとPOPの散布図に、回帰式の曲線を重ねてみます。
今回は以上です。