Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

短時間労働者の給与のデータの分析4 - R言語のlm関数で回帰分析をする。女性の時給は男性の時給よりも有意に低い。

 

www.crosshyou.info

 の続きです。

今回はR言語のlm関数を使って、wage: 1時間当たりの給与額を他の変数で回帰分析しようと思います。gendar: 男女の区別 がwageに影響しているのかどうかを確かめます。

f:id:cross_hyou:20210404103203p:plain

 

summary関数でlm_model1を見てみましょう。

f:id:cross_hyou:20210404103417p:plain

f:id:cross_hyou:20210404103433p:plain

一番下のp_value: < 2.2e-16 がこのモデルが有意なモデルだと表しています。

Multiple R-squaredが0.8164なので、このモデルでwageの81.6%は説明できていているということです。

gendarmの係数が161.6394ですので、企業規模、産業種類、年齢、勤続年数、労働日数、労働時間、人口が同じならば、男性のほうが時給が161円も高いということです。

これは結構大きな差ですよね。 係数のp値が0.000906ですから男女の間で時給に差があることは間違いなさそうです。

残差プロットを見てみましょう。

f:id:cross_hyou:20210404104355p:plain

f:id:cross_hyou:20210404104410p:plain

残差の散らばり具合が右側のほうに行くにつれ、大きくなっています。これは不均一分散なのでよくありません。

lmtestパッケージを読み込んで、coeftest関数でHeteroscedasticity Robust SEを見てみましょう。以下の本を参考にしました。 

Using R for Introductory Econometrics

Using R for Introductory Econometrics

  • 作者:Heiss, Florian
  • 発売日: 2020/05/24
  • メディア: ペーパーバック
 

 

f:id:cross_hyou:20210404111756p:plain

lmtestとcarというパッケージを読み込みます。

coeftest関数で、vcov = hccmというオプションを付けます。

f:id:cross_hyou:20210404111934p:plain

gendarmのp値が0.0913498と大きくなりましたが、それでも10%水準で有意な値です。

今回は以上です。

次回は 

www.crosshyou.info

 です。

はじめから読むには、

 

www.crosshyou.info

 です。