の続きです。
今回はR言語のlm関数で収入を反応変数、学歴の比率を説明変数にして回帰分析をしてみます。

p-value: 0.002016とあります。0.05よりも小さい値ですので、有意なモデルです。
Middle_RatioはPr(>|t|)が0.16327と0.05よりも大きいので有意な変数ではないようです。
削除して、より単純なモデルを作ります。

update関数でモデルを単純化して、anova関数でmodel1とmodel2を比較しています。
Pr(>F)の値が0.1633と0.05よりも大きいです。model1とmodel2では有意な違いはありません。なので、より単純なmodel2のほうが良いモデルです。

Advamce_Ratioのp値は0.16750と0.05よりも大きいです。これも削除してさらに単純なモデルを作ります。

Pr(>F)が0.1675が0.05よりも大きいです。model2とmodel3は有意な違いはありません。
model3を見てみましょう。

p-value:0.000843と0.05よりも小さいですので、有意なモデルです。
平均年収 = 552万 + 830 x 大学・大学院卒の比率
という回帰モデルです。大学・大学院卒の比率が1%上昇すると、平均収入は8万3000円上昇するということですね。
残差プロットを描きます。


残差は特にパターンになってないようなのでいいと思います。
同じように、Low_Incomeの回帰分析してみます。

Advance_Ratioを削除してさらに単純なモデルを作ります。

low_model1とlow_model2では有意な違いはありません。low_model2を見てみましょう。

InterceptのPr(>|t|)が0.698124と大きいですね。Interceptを削除してみます。

low_model2とlow_model3では有意な違いはありません。
low_model3を見てみましょう。

下位20%の平均収入 = 366 x 高校卒の比率 + 838 x 大学・大学院卒の比率
になります。下位20%の平均収入を上げるには、小学校・中学校卒の比率を減らして高校まで進学できるように、短大・高専卒の比率を減らして大学・大学院卒の比率を高めるといいのでしょうか。
残差プロットを見てみましょう。


残差プロットは特に問題はないようです。
High_Incomeも同じように回帰分析します。

Middle_Ratioを削除します。

Pr(>F)が0.3643と0.05よりも大きいです。high_model1とhigh_model2は有意な違いはありません。high_model2を見てみましょう。

Advance_Ratioを削除してさらに単純なモデルを作ります。


上位20%の平均収入 = 947 + 1449 * 大学・大学院卒の比率
というモデル式です。大学・大学院卒の比率が1%上昇すると、14万円ほど平均収入が上昇します。
残差プロットを見てみましょう。


残差プロットは特に問題ないようです。
今回は以上です。
大学・大学院卒の比率が高いほど平均収入は高い傾向がありました。
また、下位20%の平均収入は高校卒の比率も関連があることがわかりました。