Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の保護統計調査のデータ分析11 - Rのplmパッケージを使ってパネルデータ分析

UnsplashKrzysztof Niewolnyが撮影した写真 

www.crosshyou.info

の続きです。

今回は、Rのplmパッケージを使って、パネルデータで回帰分析をしてみます。

まず、library()関数でplmパッケージを読み込みます。

前回作成した、df3のデータフレームをパネルデータフレームに転換します。

もともとのデータフレームが今回のように、

北海道 Y1997

北海道 Y2008

北海道 Y2021

青森県 Y1997

青森県 Y2008

青森県 Y2021

というように、クロスセクションのデータごとに、時系列で並んでいれば、

pdata.frame(データフレーム、index = クロスセクションの数)

のコマンドでパネルデータに変換できます。

pdim()関数でデータ構造を確認すると、Balanced Panelで、n = 47, T = 3, N = 141となっていることがわかります。

パネルデータでの回帰分析の手法の主な手法は、First Difference, Fixed Effect, Randon Effectの3つです。

今回はこの3つでr_oneをr_fourで説明するモデルを推計してみます。

plm()関数で、model = "fd" とすると、First Differenced Estimatorになります。

r_fourの係数は、-0.878で統計的に有意です。

次は、Fixed Effect Estimator です。

model = "within" とすると、Fixed Effects Estimatorです。

r_fourの係数は -0.952 となりました。統計的に有意な値です。

model = "random" で Random Effects Estimator です。

係数は-0.986 です。統計的に有意ですね。

plm()関数では、model = "pooling"とすると、前回やったPooled Cross Sectionの回帰分析になります。こちらも試してみます。

r_four の係数は、-1.035 です。当然ですが、前回の回帰分析と同じです。

4つの推計方法の結果を、statgazerパッケージのstargazer()関数で比較してみます。

係数の推計値の下にある、かっこの中の数値が、標準誤差の値です。

この値から95%の信頼区間がわかりますが、4つの推計方法の全てで、r_four の係数として、-1は95%信頼区間の中にあるようです。

なので、r_oneとr_fourの値はトレードオフの関係にあると思われます。

今回は以上です。

初めから読むには、

www.crosshyou.info

です。