都道府県別の所定内給与額のデータの分析７ - R言語のlm関数で重回帰分析をする

www.crosshyou.info

の続きです。今回は2017年度の男女の1日当りの所定内給与額の比率を2005年度のデータを使って重回帰分析をしてみたいと思います。

まず、filter関数をつかって2005年度だけのデータフレームを用意します。

f:id:cross_hyou:20210220152628p:plain

このdf_2005というデータフレームとdf2というデータフレームをinner_join関数を使って結合します。

f:id:cross_hyou:20210220152854p:plain

Y2017が被説明変数で、説明変数はY2005, m_salary, f_salary, m_daysにします。f_daysやm_per_day, f_per_dayを入れないのは、Y2005, m_salary, f_salary, m_daysを使えばm_per_dayとf_per_dayは計算できるからです。

lm関数で重回帰分析をしてみます。

f:id:cross_hyou:20210220153449p:plain

p-valueは0.001262と0.05より小さく有意な統計モデルです。でもその説明変数も有意ではないですね。

tidy関数でモデルを出力してみます。

f:id:cross_hyou:20210220153731p:plain

係数の信頼区間がすべて0を含んでいます。

step関数で不要な説明変数を除いてみます。

f:id:cross_hyou:20210220154010p:plain

あら、残った説明変数はY2005: 2005年度の男女の1日当りの所定内給与額の比率だけでした。p-valueは3.236e-05と0.05よりも低く、Y2005の係数のp値も3.24e-05と0.05よりも低いです。

Y2005の2乗項、3乗項も加えてみたモデルを作ってみましょう。

f:id:cross_hyou:20210220154531p:plain

2乗項、3乗項を加えるのは意味ないようですね。

lm5の残差プロットを見てみます。

f:id:cross_hyou:20210220154751p:plain

f:id:cross_hyou:20210220154805p:plain

今回は以上です。

はじめから読むには、

www.crosshyou.info

です。