www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の共働き世帯割合のデータの分析３ - 共働き世帯割合を失業率で回帰分析する。失業率が高いほど、共働き世帯割合は低い。

データ分析

f:id:cross_hyou:20211205101240j:plain

Photo by Gustavo Zambelli on Unsplash

www.crosshyou.info

の続きです。

今回は、tomo: 共働き世帯割合(%)を被説明変数、unem: 完全失業率(%)を説明変数にして回帰分析をしてみようと思います。

R言語のlm()関数を使います。

まずは、2015年だけのデータで、tomo = beta_0 + beta_1*unem + u というモデルを推計してみましょう。

f:id:cross_hyou:20211205101549p:plain

となりました。

tomo = 43.6 - 3.85*unem + u

という式ですね。unem: 完全失業率が1ポイント上昇すると、共働き世帯割合は3.85ポイント減少するという解釈になります。

この43.629, -3.845をlm関数を使わないで再現してみます。

f:id:cross_hyou:20211205101830p:plain

2015年のtomoをyに、2015年のunemをxに置き換えました。

はじめは傾きから計算します。

f:id:cross_hyou:20211205102027p:plain

傾きはxとyの共分散を、xの分散で割り算すると算出されます。

-3.844505とim()関数の結果と一致しました。

続いて、切片、beta_0です。

f:id:cross_hyou:20211205102315p:plain

切片は、y = beta_0 + beta_1*x + u を変形して、beta_0 = y - beta_1*x にして、事前に求めたbeta_1とyの平均値、xの平均値を代入すると算出できます。

2015年だけのデータでは、失業率が高いほど共働き世帯割合は低いという関係があることがわかりました。他の調査年でも同様の傾向なのか、調べてみましょう。

まず、broomパッケージを読み込みしておきます。broomパッケージはtidyverseの枠組みの中で回帰分析を行うことができる便利なパッケージです。

f:id:cross_hyou:20211205103003p:plain

それでは、他の調査年についても回帰分析してみます。

f:id:cross_hyou:20211205103132p:plain

各調査年のunemの傾きはマイナスで、どの年も統計的に有意に0とは違います。

失業率が高い地域ほど、共働き世帯割合は低いということはかなり確実なようです。

全ての調査年のデータをまとめて回帰分析してみます。

f:id:cross_hyou:20211205103643p:plain

unemの傾きは-3.02ですね。失業率が1ポイント上昇すると、共働き世帯割合は3ポイント下落するということですね。

tomo: 共働き世帯割合とunem: 完全失業率の散布図に回帰直線を重ねてみましょう。

f:id:cross_hyou:20211205104209p:plain

f:id:cross_hyou:20211205104220p:plain

直線よりも曲線にしたほうがあてはまりがよくなるかもしれません。

unemの2乗項を追加して回帰分析してみましょう。

まずは、2015年だけのデータでやってみます。

f:id:cross_hyou:20211205171357p:plain

散布図と回帰曲線を描いてみます。

f:id:cross_hyou:20211205171657p:plain

f:id:cross_hyou:20211205171708p:plain

全部の調査年のデータでも同じようにします。

f:id:cross_hyou:20211205171858p:plain

unem, I(unem^2)のp値はともに0.01以下です。

散布図を描いてみます。

f:id:cross_hyou:20211205172219p:plain

f:id:cross_hyou:20211205172230p:plain

2乗項を追加するのではなくて、unemの対数で回帰分析してみます。

f:id:cross_hyou:20211205172457p:plain

散布図を描いてみます。

f:id:cross_hyou:20211205173149p:plain

f:id:cross_hyou:20211205173202p:plain

全ての調査年でのデータでも回帰分析します。

f:id:cross_hyou:20211205173412p:plain

散布図を描きます。

f:id:cross_hyou:20211205174014p:plain

f:id:cross_hyou:20211205174026p:plain

こうして、

tomo = beta_0 + beta_1 * unem + u (単純回帰分析モデル)

tomo = beta_0 + beta_1 * umen + beta_2 * umem^2 + u (2乗項を追加)
tomo = beta_0 + beta_1 * log(unem) + u (対数変換)
の3つのモデルを作りました。

どれが一番いいでしょうか？Adjusted R2を比べてみましょう。

f:id:cross_hyou:20211205175230p:plain

2015年だけのデータは、model5, 全ての調査年のデータはmodel6が一番Adjusted R2が大きいです。どちらも対数変換した失業率を説明変数にしたものですね。

model5は

tomo = 51.19 - 16.66 * log(unem) + u

なので、失業率が1%(1ポイントではないです)増えると、共働き世帯割合は0.1666下がる、ということです。

model6は

tomo = 51.86 - 13.75 * log(unem) + u

なので、失業率が1%増えると、共働き世帯は0.1375下がる、ということです。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。