crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の通院者率のデータの分析4 - R言語で単回帰分析 - 65歳以上人口割合で通院者率を回帰分析

f:id:cross_hyou:20210922200840j:plain

Photo by Sana Ullah on Unsplash 

www.crosshyou.info

の続きです。

通院者率は、oldr: 65歳以上の人口割合がと関係があるかどうかを調べてみます。

やっぱり歳をとってくると病院のお世話になることが若いときよりも多くなると思うんですよね。

oldrがある年を確認します。

f:id:cross_hyou:20210922201653p:plain

2005年から2019年まで毎年、データがあるのですね。

一番古い年でoldrとhosp: 人口1000人当たりの通院者率のあるのは2007年、一番新しい年で両方にデータがあるのは2019年です。

この2007年と2019年のデータを使って、oldrとhospの散布図を描いてみます。

f:id:cross_hyou:20210922202403p:plain

f:id:cross_hyou:20210922202415p:plain

2007年と2019年で分布範囲は違っていますが、oldrとhospに正の相関関係があることは間違いないようですね。

lm()関数で回帰分析してみましょう。

2007年と2019年だけのデータフレームを作ります。

f:id:cross_hyou:20210922202906p:plain

worr: 従業者率とgymn: 人口100万人当たりの社会体育施設数は2007年と2019年はデータが無かったのですね。

yearというファクタ型の変数で2007と2019を区別できるようにしておきました。

それでは、回帰分析をしてみます。

f:id:cross_hyou:20210922203254p:plain

このモデル全体のp-valueは2.2e-16よりも小さいので有意な統計モデルです。

hosp = 156.4482 -+ 7.9904*oldr + u

という推定式です。uはerror termです。

つまり、oldrが1ポイント上昇すると、通院者率が約8人増えるということです。

残差プロットを描いてみます。

f:id:cross_hyou:20210922203643p:plain

f:id:cross_hyou:20210922203654p:plain

残差が適当に散らばってみえますので、heteroskedasticity(誤差項の不均一分散)ではないようです。

確認してみましょう。

 

にあるSpecial Case of the White Test for Heterosjedasticityの方法でやってみます。

f:id:cross_hyou:20210922205342p:plain

p-value: 0.3069ということなので、uhat2 = yhat + yhat^2 + error という回帰式は有意ではないです。つまり、heteroskedasticity(誤差項の不均一分散)ではないということですね。

今回は以上です。

次回は

 

www.crosshyou.info

です。

はじめから読むには

 

www.crosshyou.info

です。