Photo by Gustavo Zambelli on Unsplash
の続きです。
今回は、tomo: 共働き世帯割合(%)を被説明変数、unem: 完全失業率(%)を説明変数にして回帰分析をしてみようと思います。
R言語のlm()関数を使います。
まずは、2015年だけのデータで、tomo = beta_0 + beta_1*unem + u というモデルを推計してみましょう。
となりました。
tomo = 43.6 - 3.85*unem + u
という式ですね。unem: 完全失業率が1ポイント上昇すると、共働き世帯割合は3.85ポイント減少するという解釈になります。
この43.629, -3.845をlm関数を使わないで再現してみます。
2015年のtomoをyに、2015年のunemをxに置き換えました。
はじめは傾きから計算します。
傾きはxとyの共分散を、xの分散で割り算すると算出されます。
-3.844505とim()関数の結果と一致しました。
続いて、切片、beta_0です。
切片は、y = beta_0 + beta_1*x + u を変形して、beta_0 = y - beta_1*x にして、事前に求めたbeta_1とyの平均値、xの平均値を代入すると算出できます。
2015年だけのデータでは、失業率が高いほど共働き世帯割合は低いという関係があることがわかりました。他の調査年でも同様の傾向なのか、調べてみましょう。
まず、broomパッケージを読み込みしておきます。broomパッケージはtidyverseの枠組みの中で回帰分析を行うことができる便利なパッケージです。
それでは、他の調査年についても回帰分析してみます。
各調査年のunemの傾きはマイナスで、どの年も統計的に有意に0とは違います。
失業率が高い地域ほど、共働き世帯割合は低いということはかなり確実なようです。
全ての調査年のデータをまとめて回帰分析してみます。
unemの傾きは-3.02ですね。失業率が1ポイント上昇すると、共働き世帯割合は3ポイント下落するということですね。
tomo: 共働き世帯割合とunem: 完全失業率の散布図に回帰直線を重ねてみましょう。
直線よりも曲線にしたほうがあてはまりがよくなるかもしれません。
unemの2乗項を追加して回帰分析してみましょう。
まずは、2015年だけのデータでやってみます。
散布図と回帰曲線を描いてみます。
全部の調査年のデータでも同じようにします。
unem, I(unem^2)のp値はともに0.01以下です。
散布図を描いてみます。
2乗項を追加するのではなくて、unemの対数で回帰分析してみます。
散布図を描いてみます。
全ての調査年でのデータでも回帰分析します。
散布図を描きます。
こうして、
tomo = beta_0 + beta_1 * unem + u (単純回帰分析モデル)
tomo = beta_0 + beta_1 * umen + beta_2 * umem^2 + u (2乗項を追加)
tomo = beta_0 + beta_1 * log(unem) + u (対数変換)
の3つのモデルを作りました。
どれが一番いいでしょうか?Adjusted R2を比べてみましょう。
2015年だけのデータは、model5, 全ての調査年のデータはmodel6が一番Adjusted R2が大きいです。どちらも対数変換した失業率を説明変数にしたものですね。
model5は
tomo = 51.19 - 16.66 * log(unem) + u
なので、失業率が1%(1ポイントではないです)増えると、共働き世帯割合は0.1666下がる、ということです。
model6は
tomo = 51.86 - 13.75 * log(unem) + u
なので、失業率が1%増えると、共働き世帯は0.1375下がる、ということです。
今回は以上です。
次回は、
です。
初めから読むには、
です。