Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の保護統計調査のデータ分析10 - RでPooled Cross-Sectionsのデータ分析

UnsplashYoksel 🌿 Zokが撮影した写真 

www.crosshyou.info

の続きです。

今回からは、Rでパネルデータ分析をしてみます。

まず、パネルデータとして、1997年、2008年、2021年の3年間だけのデータフレームを作ってみます。

filter()関数で1997年、2008年、2021年のデータだけにして、mutate()関数とif_else()関数で2008年なら1、2021年なら2、というダミー変数を作成しました。
まず、パネルデータ分析の前に、Pooled Cross-Section データと見立てて分析します。

d2008とd2021のダミー変数を新しく加えるだけです。

r_fourの係数は、-1.03469で、p値は0に近く、有意な係数だとわかります。

二つのダミー変数、d2008と22021も有意なようです。

このダミー変数は、1997年と切片の違いを表しています。

つまり、1997年の回帰分析結果は、

r_one = 0.80040 - 1.03469 * r_four + u

2008年の回帰分析結果は、

r_one = 0.80040 - 0.16003 - 1.03469 * r_four + u

2021年の回帰分析結果は、

r_one = 0.80040 - 0.27958 - 1.03469 * r_four + u

です。

これをグラフであらわしてみます。

ggplot() + geom_point()で散布図を描いて、geom_abline()で直線を描きました。

もう一つ、それぞれの年で傾きが違うモデルも調べてみます。

この結果は、

1997年のときは、

r_one = 0.82634 - 1.40897 * r_four + u

2008年のときは、

r_one = 0.82634 - 0.21297 - (1.40897 + 0.69775) * r_four + u

2021年のときは、

r_one = 0.82634 - 0.30777 - (1.40897 + 0.39064) * r_four + u

です。1997年を基準にすると、2008年、2021年は傾きが穏やかになっています。

これもグラフにしてみます。

傾きが同じモデルと違うモデル、少し違いますが、どちらも、切片は、1997年、2008年、2021年と年を経るごとに小さくなっています。

年の違いを考慮しないで回帰分析するとどうなりますでしょうか?

傾きが-2.93169と、いままでとは違った値になりました。

これもグラフにしてみます。

このようになりました。

今回は以上です。

次回は

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。