都道府県別の保護統計調査のデータの分析８ - R言語のdynlmパッケージで時系列データの回帰分析

UnsplashのTom Podmoreが撮影した写真

上のブログの続きです。

今回は、保護統計調査のデータを時系列データとして扱って、分析をしてみます。

これまでの回帰分析では、r_one: １号観察の割合をr_four: ４号観察の割合で回帰分析していましたので、r_oneとr_fourの年別の平均値を時系列データにします。

ts()関数で時系列データになります。

ts()関数で作成された時系列データは、plot()関数で簡単にグラフになります。

時系列データを回帰分析する際は、dynlmパッケージを利用すると便利です。

dynlm()関数でlm()関数と同じように回帰分析ができます。

r_fourの係数は-4.58です。r_fourが1上がると、r_oneは4.58下がる、という式です。

クロスセクションのときは、

2021年のデータだけのクロスセクションの回帰分析ですが、r_fourの係数は-1.0です。

時系列での回帰分析と、クロスセクションの回帰分析で、係数がかなり違いますね。

先ほどのグラフを見ると、r_oneもr_fourもトレンドがありました。r_oneは下降トレンド、r_fourは上昇トレンドです。このトレンド要素を加えて回帰分析してみます。

trend()というの加えると、トレンド要素を加味できます。

r_fourの係数は-0.31とずいぶんと小さくなりました。しかも、p値が0.18となって有意ではなくなりました。

dynlm()関数では、L()というのでラグデータを加えることができます。

これを使って、一つ前のr_fourと一つ前のr_oneを加えたモデルをみてみましょう。

一つ前のr_oneを加えると、r_fourや一つ前のr_fourは有意ではなくなりますね。

r_fourの係数とL(r_four)の係数の合計は、-0.38692+0.24532=-0.1416です。かろうじて、マイナスの係数ですね。

このr_fourとL(r_four)が両方で有意かどうかを、carパッケージのlinearHypothesis()関数で調べてみます。

p値は0.4451なので、r_fourとL(r_four)の両方でも有意ではない、ということですね。

dynlm()関数では、d()で差分を取ることができます。今度は、差分で回帰分析してみます。

差分のデータでの回帰分析は、r_oneの差分とr_fourの差分は関連性が無い、という結果、p値が0.235になりました。

今回は以上です。

次回は、

です。

初めから読むには、

です。