www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の新規求職申込件数の分析３ - R言語で重回帰分析。男女比の低い都道府県ほど、申込件数は多い。

データ分析

www.crosshyou.info

の続きです。

前回はpGDP(一人当りの県内総生産額)を説明変数にしてpJob(人口1000人当りの新規求職申込件数)を回帰分析しました。

今回は、説明変数にMFR(男性人口と女性人口の比)を加えて重回帰分析をしてみます。

まず、分析するデータ、2015年度のデータを確認します。head関数とsummary関数を使いました。

f:id:cross_hyou:20200201100231p:plain

pJob(人口1000人当りの申し込み件数)がresponse variable(反応変数)で、MFR(男性人口÷女性人口)とpGDP(一人当りの県内総生産額)がexplanatory variable(説明変数)です。

この３つの散布図マトリックスと相関係数マトリックスを作成してみます。

plot関数とcor関数を使いました。

f:id:cross_hyou:20200201100728p:plain

pJobはMFR, pGDPに対して逆相関で、MFRとpGDPは正の相関で、相関係数は0.46です。強い相関ではないです。pJobはMFRとのほうが逆相関が強いですね。

f:id:cross_hyou:20200201101057p:plain

f:id:cross_hyou:20200201101135p:plain

panel = panel.smoothというオプションを加えて、赤い線を追加しました。

それでは、lm関数を使って重回帰分析をしてみます。

f:id:cross_hyou:20200201101507p:plain

p-valueは0.001183と0.05よりも小さいので有意なモデルです。MFR:pGDPという相互作用の項は0.232がp値なので削除しても大丈夫ですね。

f:id:cross_hyou:20200201101759p:plain

anova関数でmodel1とmodel2を比較したところ、p値は0.2319と0.05よりも大きいので、model1とmodel2では有意な違いはありません。なので、より単純なmodel2を採用します。model2を見てみましょう。summary関数を使いました。

f:id:cross_hyou:20200201102035p:plain

I(pGDP^2)は必要ないようです。削除します。

f:id:cross_hyou:20200201102242p:plain

やはり、model3とmodel2では有意な違いは無いですね。model3を見てみます。

f:id:cross_hyou:20200201102433p:plain

MFRを削除しましょう。

f:id:cross_hyou:20200201102609p:plain

model3とmodel4では有意な違いはありません。model4を見てみます。

f:id:cross_hyou:20200201102749p:plain

pGDPは必要なさそうです。削除します。

f:id:cross_hyou:20200201102953p:plain

model4とmodel5は有意な違いはありません。model5を見てみます。

f:id:cross_hyou:20200201103130p:plain

Intercept, I(MFR^2)のp値が両方とも0.05以下になりました。pJobはMFRの2乗に比例するのですね。pJob = 86.67 - 60.42 x MFR^2 という回帰式です。

pJobとMFRの散布図に回帰曲線を重ねてみましょう。

f:id:cross_hyou:20200201104255p:plain

f:id:cross_hyou:20200201104304p:plain

ありゃ！？青い線はほとんど直線ですね。これなら、lm(pJob ~ MFR)のモデルと大差ないかもしれないですね。確かめます。

f:id:cross_hyou:20200201104617p:plain

f:id:cross_hyou:20200201104628p:plain

あ～～青い線と緑の線、ほとんど一緒ですね。pJob ~ MFRのモデルを確認します。

f:id:cross_hyou:20200201104909p:plain

あれれ？Pr(>F)の列に値が表示されないですね。。これってどういうことかな？

よくわかりませんが、とりあえず、model6を見てみます。

f:id:cross_hyou:20200201105141p:plain

MFRが0.1上がると件数は11.3件減るということですね。MFRの2乗のモデル、model5より、こちらの単回帰モデル、model6のほうがわかりやすいですね。

二つのモデルのAICを比較します。AIC関数を使いました。

f:id:cross_hyou:20200201105428p:plain

ほとんどおんなじですね。

今回は以上です。