Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の交際・付き合いの平均時間のデータの分析6 - Rのplmパッケージを使いパネルデータとして回帰分析をする。

www.crosshyou.info

の続きです。前回まではクロスセクションのデータとみなして回帰分析をしました。前回の回帰分析では、人口密度が高いと、平均気温が高いと、日照時間が短いと交際・付き合いの平均時間が長い、という結果でした。

今回はパネルデータとみなして回帰分析をしてみます。果たして、推計結果に違いがあるでしょうか?

まず、plmパッケージを読み込みます。

パネルデータを作成します。yearが時系列の変数で、prefとmale_dummyが個々の観測値を指定する変数ですね。なので、prefとmale_dummyを組み合わせたIDを作ります。

 

pdata.frame()関数でパネルデータフレームを生成します。

pdim()関数で構造を確認します。

n = 94 というのは47都道府県で、男性、女性と2つあるので、47×2で94ですね。

T = 3 というのは、2001年度、2006年度、2011年度の3つの調査年ですね。

N = 282 というのは、n = 94 に T = 3 を掛けて94x3=282ですね。

では、plm()関数で回帰分析します。

被説明変数は、hourで、説明変数は、year, pop1, mitsudo, temp, sunです。

summary()関数で結果をみてみましょう。

year以外の変数は有意ではない、という結果ですね。前回、気温や密度、日照時間が交際・付き合い時間に関連しているように見えたのは、単純にそれぞれの都道府県によって交際・付き合い時間に違いがあって、気温や人口密度、日照時間はそれぞれの都道府県によって違いがあるから、ということだったようです。

絵で描くと、

ということでしょうね。こちらの図は、

【論理的思考の基本】相関関係と因果関係の違いについて徹底解説! | ロジックワークスの論理教室

のサイトを参考にして作成しました。

今回は以上です。

はじめから読むには、

 

www.crosshyou.info

です。

今回のコードは以下になります。

#
# plmパッケージを読み込む
library(plm)
#
# IDを作る
df <- df |> 
  mutate(id = str_c(pref, male_dummy))
#
# パネルデータフレームを作る
pdf <- pdata.frame(df,
                   index = c("id", "year"))
#
# パネルデータフレームの構造確認
pdim(pdf)
#
# 固定効果モデル
fe_mod <- plm(hour ~ year + temp + sun + mitsudo + pop1, data = pdf)
#
# 結果
summary(fe_mod)
#

(冒頭の画像は、Bing Image Creator で生成しました。プロンプトは、Landscape of Northern Island, close up of white Hepatica Nobilis flowers, photo です。)