
の続きです。前回まではクロスセクションのデータとみなして回帰分析をしました。前回の回帰分析では、人口密度が高いと、平均気温が高いと、日照時間が短いと交際・付き合いの平均時間が長い、という結果でした。
今回はパネルデータとみなして回帰分析をしてみます。果たして、推計結果に違いがあるでしょうか?
まず、plmパッケージを読み込みます。

パネルデータを作成します。yearが時系列の変数で、prefとmale_dummyが個々の観測値を指定する変数ですね。なので、prefとmale_dummyを組み合わせたIDを作ります。

pdata.frame()関数でパネルデータフレームを生成します。

pdim()関数で構造を確認します。

n = 94 というのは47都道府県で、男性、女性と2つあるので、47×2で94ですね。
T = 3 というのは、2001年度、2006年度、2011年度の3つの調査年ですね。
N = 282 というのは、n = 94 に T = 3 を掛けて94x3=282ですね。
では、plm()関数で回帰分析します。
被説明変数は、hourで、説明変数は、year, pop1, mitsudo, temp, sunです。

summary()関数で結果をみてみましょう。

year以外の変数は有意ではない、という結果ですね。前回、気温や密度、日照時間が交際・付き合い時間に関連しているように見えたのは、単純にそれぞれの都道府県によって交際・付き合い時間に違いがあって、気温や人口密度、日照時間はそれぞれの都道府県によって違いがあるから、ということだったようです。
絵で描くと、

ということでしょうね。こちらの図は、
【論理的思考の基本】相関関係と因果関係の違いについて徹底解説! | ロジックワークスの論理教室
のサイトを参考にして作成しました。
今回は以上です。
はじめから読むには、
です。
今回のコードは以下になります。
#
# plmパッケージを読み込む
library(plm)
#
# IDを作る
df <- df |>
mutate(id = str_c(pref, male_dummy))
#
# パネルデータフレームを作る
pdf <- pdata.frame(df,
index = c("id", "year"))
#
# パネルデータフレームの構造確認
pdim(pdf)
#
# 固定効果モデル
fe_mod <- plm(hour ~ year + temp + sun + mitsudo + pop1, data = pdf)
#
# 結果
summary(fe_mod)
#
(冒頭の画像は、Bing Image Creator で生成しました。プロンプトは、Landscape of Northern Island, close up of white Hepatica Nobilis flowers, photo です。)