Photo by Aaron Burden on Unsplash
の続きです。
前回はhosp: 人口1000人当たりの通院者率をoldr: 65歳以上人口割合(%)で回帰分析しました。oldrが1ポイント高くなると、約8人通院者率が増えることがわかりました。
今回は回帰式にyear: 2007年と2019年のファクターを入れてみて、2007年と2019年では違いがあるかどうかを見てみましょう。
year2019のp値は0.647、oldr:year2019のp値は0.511なので、年による違いがあるとは言えないようです。
2019年のときの回帰式は、
hosp = 237.2150 + 16.2060 + (4.1770 + 0.8714)*oldr
2007年のときの回帰式は、
hosp = 237.2150 + 4.1770*oldr
です。oldrの係数がyearを入れていないmodel1のときと比べるとだいぶ小さくなっていますね。
anova関数でmodel1とmodel2を比較してみましょう。
p値がかなり小さい値ですので、model1とmodel2では有意な違いがあります。
つまり、model2でyear2019、oldr:year2019の個々の係数のp値は有意ではないですが、二つ合わせると有意ということですね。
anova関数だと簡単に計算できますが、これをマニュアルというか、なるべく原始的に計算するとどうなるでしょうか?
F = ( (SSRr - SSRur)/q ) / ( SSRur / (n - k - 1) )
というF値を算出して、F検定します。
SSRrはmdel1のほうの残差の2乗の合計(residual sum of squares)で、
SSRurはmodel2のほうの残差の合計です。
qはmodel2に追加した説明変数の数ですかたら、この場合はyear2019, oldr:year2019なので2になります。
nは観測数で、今回は47都道府県*2年なので94です。
kはmodel2の説明変数の数ですから、oldr, year2019, oldr:year2019の3になります。
まず、Fを計算します。
F値が20.64868と算出されました。これは、anova関数の結果のFの値と同じですね。
pf関数でp値を計算します。
4.162873e-08となりました。anova関数のp値と同じですね。(anova関数は4.163e-08)
散布図に回帰直線を入れてみましょう。
黒い直線がyearを説明変数に入れない回帰直線です。
赤い直線は2007年の、緑の直線が2019年の回帰直線です。
緑の直線の切片が赤い直線の切片よりも上にあります。2019年のほうが同じoldrだとしてもhospは大きいということですよね。
傾きも2007年よりも2019年のほうがきつくなっています。2019年のほうがoldrの影響がより大きくなっているということですね。
今回は以上です。
次回は
です。
はじめから読むには
です。