Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の通院者率のデータの分析7 - 社会体育施設数が多い都道府県ほど通院者率が低い。

f:id:cross_hyou:20210925115254j:plain

Photo by Dillon Austin on Unsplash 

www.crosshyou.info

の続きです。

今回はoldr: 65歳以上人口割合の他の変数がhosp: 人口千人当たり通院者率に影響があるかどうかを調べようと思います。

まず。各変数の観測年を確認します。

f:id:cross_hyou:20210925115535p:plain

こうしてみると、hosp, worr, oldrは2010年にデータがあります。gymnは2010年にはデータがありませんが、2011年にデータがあります。

なので、2010年のhosp, worr, oldrと2011年のgymnのデータを使って回帰分析します。

まず、データフレームを作成します。

f:id:cross_hyou:20210925115801p:plain

これでデータフレームの用意ができました。

lm関数で回帰分析します。

f:id:cross_hyou:20210925120633p:plain

oldr: 高齢者の割合は係数の符号がプラスで、有意です。高齢者の割合が高いほど通院者率は高いことがわかります。

面白いのはgymnです。係数の符号がマイナスで有意です。社会体育施設数が多いほど通院者率は下がることを意味しています。つまり、スポーツがさかんなほうが健康にいいということですよね。

残差プロットを見てみます。

f:id:cross_hyou:20210925120945p:plain

f:id:cross_hyou:20210925120954p:plain

どうなんでしょうか?heteroskedasticityなのかhomoskedasticityなのか、私はわからないです。

ホワイト検定をしてみます。

f:id:cross_hyou:20210925121737p:plain

p-valueが0.02889と0.05以下ですから、heteroskedasticityですね。

heteroskedasticity-robust inferenceをします。

まず、lmtestとcarのパッケージの読み込みをします。

f:id:cross_hyou:20210925122126p:plain

そして、coeftest関数で、vcov = hccm というオプションで実行します。

f:id:cross_hyou:20210925122314p:plain

gymnは有意な変数です。

つまり、高齢者の割合、従業者率、東日本か西日本か、6大都府県かどうか、海があるかどうか、という条件が一緒ならば、社会体育施設数が多いほど通院者率は低いということです。

今回は以上です。

はじめから読むには

 

www.crosshyou.info

です。