Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の学歴と収入のデータ分析６ - R言語で回帰分析をする。

データ分析

www.crosshyou.info

の続きです。

今回はR言語のlm関数で収入を反応変数、学歴の比率を説明変数にして回帰分析をしてみます。

R言語のlm関数で回帰分析

p-value: 0.002016とあります。0.05よりも小さい値ですので、有意なモデルです。

Middle_RatioはPr(>|t|)が0.16327と0.05よりも大きいので有意な変数ではないようです。

削除して、より単純なモデルを作ります。

update関数とanova関数

update関数でモデルを単純化して、anova関数でmodel1とmodel2を比較しています。

Pr(>F)の値が0.1633と0.05よりも大きいです。model1とmodel2では有意な違いはありません。なので、より単純なmodel2のほうが良いモデルです。

回帰分析モデル

Advamce_Ratioのp値は0.16750と0.05よりも大きいです。これも削除してさらに単純なモデルを作ります。

update関数とanova関数

Pr(>F)が0.1675が0.05よりも大きいです。model2とmodel3は有意な違いはありません。

model3を見てみましょう。

回帰分析モデル

p-value:0.000843と0.05よりも小さいですので、有意なモデルです。

平均年収 = 552万 + 830 x 大学・大学院卒の比率

という回帰モデルです。大学・大学院卒の比率が1%上昇すると、平均収入は8万3000円上昇するということですね。

残差プロットを描きます。

回帰分析モデルの残差プロット

回帰分析モデルの残差プロット

残差は特にパターンになってないようなのでいいと思います。

同じように、Low_Incomeの回帰分析してみます。

Low_Incomeを回帰分析

Advance_Ratioを削除してさらに単純なモデルを作ります。

update関数とanova関数

low_model1とlow_model2では有意な違いはありません。low_model2を見てみましょう。

回帰分析モデル

InterceptのPr(>|t|)が0.698124と大きいですね。Interceptを削除してみます。

update関数とanova関数

low_model2とlow_model3では有意な違いはありません。

low_model3を見てみましょう。

回帰分析モデル

下位20%の平均収入 = 366 x 高校卒の比率 + 838 x 大学・大学院卒の比率

になります。下位20%の平均収入を上げるには、小学校・中学校卒の比率を減らして高校まで進学できるように、短大・高専卒の比率を減らして大学・大学院卒の比率を高めるといいのでしょうか。

残差プロットを見てみましょう。

残差プロット

残差プロット

残差プロットは特に問題はないようです。

High_Incomeも同じように回帰分析します。

回帰分析モデル

Middle_Ratioを削除します。

update関数とanova関数

Pr(>F)が0.3643と0.05よりも大きいです。high_model1とhigh_model2は有意な違いはありません。high_model2を見てみましょう。

回帰分析モデル

Advance_Ratioを削除してさらに単純なモデルを作ります。

update関数とanova関数

回帰分析モデル

上位20%の平均収入 = 947 + 1449 * 大学・大学院卒の比率
というモデル式です。大学・大学院卒の比率が1%上昇すると、14万円ほど平均収入が上昇します。

残差プロットを見てみましょう。

残差プロット

残差プロット

残差プロットは特に問題ないようです。

今回は以上です。

大学・大学院卒の比率が高いほど平均収入は高い傾向がありました。

また、下位20%の平均収入は高校卒の比率も関連があることがわかりました。