Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の書籍・文房具販売額データの分析4 - R言語で回帰分析。1人当たり県民所得が増えると1人当たり書籍・文房具販売額も増える。

f:id:cross_hyou:20210809080104j:plain

Photo by Sam Mgrdichian on Unsplash  

www.crosshyou.info

 の続きです。

前回までの分析で気づいたことは、1人当たり県民所得が大きいところは1人当たりの書籍・文房具販売額も大きいということです。

相関係数を確認してみると、

f:id:cross_hyou:20210809080629p:plain

というように相関係数は0.81と高相関です。

その他の変数同士の相関関係も確認しましょう。

f:id:cross_hyou:20210809081947p:plain

青く囲ったところは相関係数が0.8よりも大きいところです。

per_shobuをinc: 1人当たり県民所得(千円)とmratio: 15-64歳の男性の割合(%)とeast, big6,  noseaで回帰分析してみましょう。

f:id:cross_hyou:20210809084033p:plain

p-valueは2.707e-09と0.05よりも低いので有意な統計モデルです。

mratio, east, big6, noseaをコントロールした状況では、incが1(千円)増えると、per_shobuが0.012(千円)増えます、つまり12円増えるということです。

誤差項が均一分散かどうかを確認します。

f:id:cross_hyou:20210809084940p:plain

誤差項の2乗をモデルの説明変数で回帰分析してみました。p-valueが2.993e-05と0.05よりも小さいので誤差項は均一分散していません。

lmtestパッケージのbptest()関数でも同じように確認できます。Breush-Pagan Testです。

f:id:cross_hyou:20210809085810p:plain

p-valueが0.0003426と0.05よりも低い値です。誤差項が均一分散であるという帰無仮説を棄却します。

誤差項が均一分散ではないので、各変数の係数の標準誤差を計算しなおします。

carパッケージを読み込んでから、coeftest()関数で、vcov = hccmというオプションを加えます。

f:id:cross_hyou:20210809090403p:plain

incのp値が0.598になりました。5%水準では有意ではなくて、10%水準では有意ということですね。

per_shobuとincを対数変換した回帰モデルを分析してみましょう。

f:id:cross_hyou:20210809090848p:plain

p-valueは5.776e-07で有意な統計モデルです。

l_incの係数は0.86で1%水準で有意です。1人当たり県民所得が1%増えると、1人当たり書籍・文房具販売額は0.86%増える、ということです。

bptest()関数で誤差項が均一分散しているかを調べます。

f:id:cross_hyou:20210809091157p:plain

p-valueが0.05よりも小さいです。誤差項が均一分散ではない、ということですね。

Heteroskedasticity-Robust Inferenceを算出します。

f:id:cross_hyou:20210809091452p:plain

l_incのp値は0.008ですので1%水準で有意です。

今回は以上です。

1人当たり県民所得が増えると、1人当たり書籍・文房具販売額も増えることが確認できました。

次回は

 

www.crosshyou.info

 です。

初めから読むには、

 

www.crosshyou.info

 です。