Photo by Dillon Austin on Unsplash
の続きです。
今回はoldr: 65歳以上人口割合の他の変数がhosp: 人口千人当たり通院者率に影響があるかどうかを調べようと思います。
まず。各変数の観測年を確認します。
こうしてみると、hosp, worr, oldrは2010年にデータがあります。gymnは2010年にはデータがありませんが、2011年にデータがあります。
なので、2010年のhosp, worr, oldrと2011年のgymnのデータを使って回帰分析します。
まず、データフレームを作成します。
これでデータフレームの用意ができました。
lm関数で回帰分析します。
oldr: 高齢者の割合は係数の符号がプラスで、有意です。高齢者の割合が高いほど通院者率は高いことがわかります。
面白いのはgymnです。係数の符号がマイナスで有意です。社会体育施設数が多いほど通院者率は下がることを意味しています。つまり、スポーツがさかんなほうが健康にいいということですよね。
残差プロットを見てみます。
どうなんでしょうか?heteroskedasticityなのかhomoskedasticityなのか、私はわからないです。
ホワイト検定をしてみます。
p-valueが0.02889と0.05以下ですから、heteroskedasticityですね。
heteroskedasticity-robust inferenceをします。
まず、lmtestとcarのパッケージの読み込みをします。
そして、coeftest関数で、vcov = hccm というオプションで実行します。
gymnは有意な変数です。
つまり、高齢者の割合、従業者率、東日本か西日本か、6大都府県かどうか、海があるかどうか、という条件が一緒ならば、社会体育施設数が多いほど通院者率は低いということです。
今回は以上です。
はじめから読むには
です。