の続きです。
今回は、R言語のlm関数で回帰分析をしてみようと思います。
response variable(反応変数)をTotal_chgにしてその他の変数をexplanatory variables(説明変数)にします。
p-valueは2.2e-16よりも小さな係数ですが、各項のp値が大きいですね。
update関数で単純化します。
update関数で、Tour_chg:Biz_chg:Tour_Biz_Ratioの項を削除しました。
anova関数でmodel1とmodel2を比較しました。p値は0.1858と0.05よりも大きいですので、model1とmodel2では有意な違いはありません。より単純なmodel2を採用します。
Biz_chg:Tour_Biz_Ratioは削除してもよさそうです。update関数で削除します。
P値が0.4481ですからmodel2とmodel3では有意な差はありません。
より単純なmodel3を採用します。
もう削除はできないです。
もうひとつ、交差項の無いモデルを作ってみます。
こちらもp-valueは2.2e-16より小さいの有意なモデルです。Adjusted R-squaredは0.8663です。
Total_chg = 0.182 + 0.534 x Tour_chg + 0.253 x Biz_chg + 0.015 x Tour_Biz_Ratioです。
残差プロットを見てみましょう。
左上のグラフが残差プロットですが、特に明確なパターンを形成しているようには見えないので大丈夫です。
多重共線性(Multocollinearity)があるかどうか調べます。carパッケージを読み込んで、vif関数で調べます。
どの変数も2以下、ほとんど1に近いので多重共線性の問題はありません。
交差項を含んだモデル、model3でVIFを計算してみます。
どの変数も10以上なので、よくないです。多重共線性があります。
今回は以上です。