都道府県別の被服及び履物費のデータの分析５ - R言語でパネルデータ分析。plmパッケージのplm()関数を使う

UnsplashのAndrey Andreyevが撮影した写真

www.crosshyou.info

の続きです。

今回は、R言語でパネルデータの分析をします。

Using R for Introductory Econometrics

作者:Heiss, Florian
Independently Published

Amazon

こちらの本を参考にしてやってみます。

まず、パネルデータ分析用のデータのパッケージ、plmパッケージの読み込みをします。

パネルデータ分析用のデータパネル、pdata.frameを作ります。NAのあるwariai, percapita17, percapita23は除外します。

pdim()関数で作成したパネルデータの構造を確認します。

Balanced Panelとなっていますので、どの年も47都道府県のデータが揃っていることがわかります。n = 47となっています。47都道府県だとわかります。T = 33となっています。33年間のデータがあるとわかります。 N = 1551となっています。47*33 = 1551です。

sample_n()関数でランダムにデータを眺めてみます。

ibaaraki-1984は、1984年の茨城県、Oita-1990は1990年の大分県という意味ですね。

まずは、pooling cross section ということでパネルデータと意識せず、普通の回帰分析として分析してみます。被説明変数はwear_shoeで、説明変数は、mitsudoとyearをファクター型に変換したものとbig6にしてみます。plm()関数をつかってmodelをpoolingにすると、普通の回帰分析になります。

結果を表示するのに便利なstargazerパッケージの読み込みをしておきます。

stargazer()関数で結果を表示します。yearのファクター型に変換したものは32もありますので、mitsudoとbig6の係数だけを表示します。keeep = のところで表示したい変数だけにすることができます。big6, 東京都、大阪府、愛知県、神奈川県、千葉県、埼玉県だと他の都道府県よりも1172ぐらいwear_shoeが多いです。