UnsplashのTom Podmoreが撮影した写真
上のブログの続きです。
今回は、保護統計調査のデータを時系列データとして扱って、分析をしてみます。
これまでの回帰分析では、r_one: 1号観察の割合をr_four: 4号観察の割合で回帰分析していましたので、r_oneとr_fourの年別の平均値を時系列データにします。
ts()関数で時系列データになります。
ts()関数で作成された時系列データは、plot()関数で簡単にグラフになります。
時系列データを回帰分析する際は、dynlmパッケージを利用すると便利です。
dynlm()関数でlm()関数と同じように回帰分析ができます。
r_fourの係数は-4.58です。r_fourが1上がると、r_oneは4.58下がる、という式です。
クロスセクションのときは、
2021年のデータだけのクロスセクションの回帰分析ですが、r_fourの係数は-1.0です。
時系列での回帰分析と、クロスセクションの回帰分析で、係数がかなり違いますね。
先ほどのグラフを見ると、r_oneもr_fourもトレンドがありました。r_oneは下降トレンド、r_fourは上昇トレンドです。このトレンド要素を加えて回帰分析してみます。
trend()というの加えると、トレンド要素を加味できます。
r_fourの係数は-0.31とずいぶんと小さくなりました。しかも、p値が0.18となって有意ではなくなりました。
dynlm()関数では、L()というのでラグデータを加えることができます。
これを使って、一つ前のr_fourと一つ前のr_oneを加えたモデルをみてみましょう。
一つ前のr_oneを加えると、r_fourや一つ前のr_fourは有意ではなくなりますね。
r_fourの係数とL(r_four)の係数の合計は、-0.38692+0.24532=-0.1416です。かろうじて、マイナスの係数ですね。
このr_fourとL(r_four)が両方で有意かどうかを、carパッケージのlinearHypothesis()関数で調べてみます。
p値は0.4451なので、r_fourとL(r_four)の両方でも有意ではない、ということですね。
dynlm()関数では、d()で差分を取ることができます。今度は、差分で回帰分析してみます。
差分のデータでの回帰分析は、r_oneの差分とr_fourの差分は関連性が無い、という結果、p値が0.235になりました。
今回は以上です。
次回は、
です。
初めから読むには、
です。