Photo by Sam Mgrdichian on Unsplash
の続きです。
前回までの分析で気づいたことは、1人当たり県民所得が大きいところは1人当たりの書籍・文房具販売額も大きいということです。
相関係数を確認してみると、
というように相関係数は0.81と高相関です。
その他の変数同士の相関関係も確認しましょう。
青く囲ったところは相関係数が0.8よりも大きいところです。
per_shobuをinc: 1人当たり県民所得(千円)とmratio: 15-64歳の男性の割合(%)とeast, big6, noseaで回帰分析してみましょう。
p-valueは2.707e-09と0.05よりも低いので有意な統計モデルです。
mratio, east, big6, noseaをコントロールした状況では、incが1(千円)増えると、per_shobuが0.012(千円)増えます、つまり12円増えるということです。
誤差項が均一分散かどうかを確認します。
誤差項の2乗をモデルの説明変数で回帰分析してみました。p-valueが2.993e-05と0.05よりも小さいので誤差項は均一分散していません。
lmtestパッケージのbptest()関数でも同じように確認できます。Breush-Pagan Testです。
p-valueが0.0003426と0.05よりも低い値です。誤差項が均一分散であるという帰無仮説を棄却します。
誤差項が均一分散ではないので、各変数の係数の標準誤差を計算しなおします。
carパッケージを読み込んでから、coeftest()関数で、vcov = hccmというオプションを加えます。
incのp値が0.598になりました。5%水準では有意ではなくて、10%水準では有意ということですね。
per_shobuとincを対数変換した回帰モデルを分析してみましょう。
p-valueは5.776e-07で有意な統計モデルです。
l_incの係数は0.86で1%水準で有意です。1人当たり県民所得が1%増えると、1人当たり書籍・文房具販売額は0.86%増える、ということです。
bptest()関数で誤差項が均一分散しているかを調べます。
p-valueが0.05よりも小さいです。誤差項が均一分散ではない、ということですね。
Heteroskedasticity-Robust Inferenceを算出します。
l_incのp値は0.008ですので1%水準で有意です。
今回は以上です。
1人当たり県民所得が増えると、1人当たり書籍・文房具販売額も増えることが確認できました。
次回は
です。
初めから読むには、
です。