の続きです。
前回はpGDP(一人当りの県内総生産額)を説明変数にしてpJob(人口1000人当りの新規求職申込件数)を回帰分析しました。
今回は、説明変数にMFR(男性人口と女性人口の比)を加えて重回帰分析をしてみます。
まず、分析するデータ、2015年度のデータを確認します。head関数とsummary関数を使いました。
pJob(人口1000人当りの申し込み件数)がresponse variable(反応変数)で、MFR(男性人口÷女性人口)とpGDP(一人当りの県内総生産額)がexplanatory variable(説明変数)です。
この3つの散布図マトリックスと相関係数マトリックスを作成してみます。
plot関数とcor関数を使いました。
pJobはMFR, pGDPに対して逆相関で、MFRとpGDPは正の相関で、相関係数は0.46です。強い相関ではないです。pJobはMFRとのほうが逆相関が強いですね。
panel = panel.smoothというオプションを加えて、赤い線を追加しました。
それでは、lm関数を使って重回帰分析をしてみます。
p-valueは0.001183と0.05よりも小さいので有意なモデルです。MFR:pGDPという相互作用の項は0.232がp値なので削除しても大丈夫ですね。
anova関数でmodel1とmodel2を比較したところ、p値は0.2319と0.05よりも大きいので、model1とmodel2では有意な違いはありません。なので、より単純なmodel2を採用します。model2を見てみましょう。summary関数を使いました。
I(pGDP^2)は必要ないようです。削除します。
やはり、model3とmodel2では有意な違いは無いですね。model3を見てみます。
MFRを削除しましょう。
model3とmodel4では有意な違いはありません。model4を見てみます。
pGDPは必要なさそうです。削除します。
model4とmodel5は有意な違いはありません。model5を見てみます。
Intercept, I(MFR^2)のp値が両方とも0.05以下になりました。pJobはMFRの2乗に比例するのですね。pJob = 86.67 - 60.42 x MFR^2 という回帰式です。
pJobとMFRの散布図に回帰曲線を重ねてみましょう。
ありゃ!?青い線はほとんど直線ですね。これなら、lm(pJob ~ MFR)のモデルと大差ないかもしれないですね。確かめます。
あ~~青い線と緑の線、ほとんど一緒ですね。pJob ~ MFRのモデルを確認します。
あれれ?Pr(>F)の列に値が表示されないですね。。これってどういうことかな?
よくわかりませんが、とりあえず、model6を見てみます。
MFRが0.1上がると件数は11.3件減るということですね。MFRの2乗のモデル、model5より、こちらの単回帰モデル、model6のほうがわかりやすいですね。
二つのモデルのAICを比較します。AIC関数を使いました。
ほとんどおんなじですね。
今回は以上です。