Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の一般病院病床利用率のデータ分析7 - より多くの観測数で回帰分析をする。(Pooling Cross Section regression)

f:id:cross_hyou:20210828150232j:plain

 Photo by shay cohen on Unsplash  

www.crosshyou.info

 の続きです。前回は都道府県別の平均値のデータフレームで回帰分析しましたが、今回は生のデータフレームで回帰分析してみます。

まず、変数間の散布図マトリックスをみてみます。

f:id:cross_hyou:20210828150933p:plain

f:id:cross_hyou:20210828150944p:plain

相関係数マトリックスもみてみます。

f:id:cross_hyou:20210828151155p:plain

riyouとl_mitsudoの相関係数は-0.013, l_shotokuとの相関係数は-0.160, l_iryouとの相関係数は0.025です。一番相関係数(の絶対値)の大きな組み合わせは、l_mitsudoとl_shotoku で0.618です。

それではR言語のlm()関数で回帰分析してみます。

f:id:cross_hyou:20210828151550p:plain

前回の回帰分析と違うのは、factor(year)を加えています。

年によってriyouは平均的な水準が違うのがわかります。

l_iryouの係数を見ると、12.1682です。

前回のreg2ではl_iryouの係数は11.8724でしたのであまりかわらないですね。

前回のreg2とreg3の各変数の係数や標準誤差などを比べてみます。

f:id:cross_hyou:20210828152419p:plain

l_iryouのところを青く囲みましたが、dfで回帰分析した結果のほうが標準誤差が小さくなっていることがわかります。dfのほうが観測数が多いからですね。

残差プロットをみてみます。

f:id:cross_hyou:20210828152915p:plain

f:id:cross_hyou:20210828152741p:plain

残差に不均一性は見られないようです。

念のため、Breusch-Pagan Testをしてみます。

f:id:cross_hyou:20210828153024p:plain

p-valueが0.0342と0.05よりも小さいので均一分散であるという帰無仮説を棄却します。

lmtestライブラリーとcarライブラリーを読み込んで、

heteroskedasticity robustな標準誤差をみてみましょう。

f:id:cross_hyou:20210828153418p:plain

l_iryouの標準誤差は2.706と少し大きくなりましたが、0.1%水準で有意であることはかわらないです。

医療費(iryoy)が1%増えると病院病床利用率は0.12ポイント高いということですね。

今回は以上です。

はじめから読むには

 

www.crosshyou.info

 です。