www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の共働き世帯割合のデータの分析5 - 2010年と2015年の2期間のデータで回帰分析する。パネルデータフレームの作成とFirst Difference Estimator

f:id:cross_hyou:20211212075209j:plain

Photo by Ahsen Sunay on Unsplash 

www.crosshyou.info

の続きです。

前回は2015年だけのデータを使って回帰分析しました。

今回は2010年のデータも使って回帰分析してみます。

まず、2010年と2015年だけのデータフレームを作成します。

f:id:cross_hyou:20211212075429p:plain

d10というダミー変数を加えています。これは2010年ならば1、2015年ならば0という変数です。

このd10というダミー変数を入れて前回と同じような回帰分析をします。

f:id:cross_hyou:20211212075628p:plain

log(unem)の係数は-9.2で統計的に有意です。unem: 完全失業率が1%高いとtomo: 共働き世帯割合(%)は0.92ポイント低下するということです。d10の係数が3.85でこれも統計的に有意です。d10が1、つまり2010年のほうがtomo: 共働き世帯割合(%)が3.85高いということです。

この回帰分析モデル(model8)と前回の回帰分析モデル(model7)を比較してみましょう。

stargazerパッケージを読み込みして、stargazer()関数を使うと論文に出てくるような形式で出力できます。

f:id:cross_hyou:20211212080344p:plain

係数が大きく変わった変数は、ggdp23ですね。2015年だけのデータのmodel7では0.330で10%水準で有意でしたが、2010年も加えたデータのmodel8では0.073とかなり小さくなって有意ではなくなりました。

consr: 人口集中地区面積比率(%)がmodel7では有意ではありませんでしたが、model8では1%水準で有意になりました。人口集中地区面積比率が高いほど、共働き世帯割合は低いという解釈です。

model8はpooled cross section data という単純に複数年のデータがあるクロスセクションデータの回帰分析でした。

こんどは、各年のクロスセクションデータが同じ観測対象を観察しているパネルデータとして回帰分析をしてみましょう。

まず、plmパッケージを読み込みして、pdata.frame()関数でパネルデータフレームを作成します。

f:id:cross_hyou:20211212081329p:plain

あれれ?prefが文字化けしてしまいましたね。。しょうがないので削除します。その後にpdim()関数でパネルデータフレームになっているかどうか確認します。

f:id:cross_hyou:20211212081546p:plain

Balanced Panelと表示されています。これは、各年の各観測対象のデータがちゃんと揃っているということですね。n = 47なので観測対象は47(都道府県なので47ですね)、T=2なので、観測年は2年(2010年と2015年ですね)、N=94は47x2です。94行データがある、ということです。

今回は、パネルデータフレーム分析の手法の一つ、First Differenced Estimatorをやってみます。

これは、

y_it = beta_0 + beta_1 * log(unem)_it + beta_2 * consr_it + beta_3 * consn_it + beta_4 * ggdp23_it + beta_5 * r1_it + beta_6 * r2_it + a_t + u_it

iは観測対象(今回は1 ~ 47)、tは観測年(今回は1, 2)

というモデルを考えます。a_tというのが個々のi、今回は都道府県に特有で、このモデルではとらえることのできないt=1, 2で変わらない特性を表しています。u_itは誤差項です。

こういう推計式があるとき、t=2のときの式からt=1のときの式を引くと、

Δy_it = Δy_it - Δy_it-1

        = beta_1 * Δlog(unem)_it + beta_2 * Δconsr_it + beta_3 * Δconsn_it + beta_4 * Δggdp23_it + beta_5 * Δr1_it + beta_6 * Δr2_it + Δu_it

となってa_tが消える、という理屈です。

plm()関数で、model = "fd"とすると実行できます。

f:id:cross_hyou:20211212084504p:plain

あらら。。全部の変数が統計的に有意ではなくなってしまいましたね。。

これは、モデルから消去されたa_iが共働き世帯割合に大きな影響を及ぼしている、ということでしょうかね?よくわからないですが。。

今回は以上です。

次回は

 

www.crosshyou.info

です。

 

初めから読むには、

 

www.crosshyou.info

です。