www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のデジタル教科書の整備率のデータの分析５ - R言語のlm関数で回帰分析をする。

データ分析

www.crosshyou.info

の続きです。

今回はdg_h: 高等学校のデジタル教科書の整備率をその他の変数で回帰分析してみます。R言語のlm関数を使います。

f:id:cross_hyou:20210130114627p:plain

p-valueは0.01039なので有意なモデルです。各変数の係数のp値を見ると、pc_h: 高等学校のPC1台当たりの児童数だけが有効なようです。

step関数で不要な変数を削除してみます。

f:id:cross_hyou:20210130115124p:plain

anova関数でlm_model1とlm_model2を比較しました。p値は0.9791なので、lm_model1とlm_model2とは有意な違いはありません。そこでより単純なlm_model2のほうを採用します。

summary関数でlm_model2を見てみます。

f:id:cross_hyou:20210130115355p:plain

pc_c: 中学校のPC1台当たりの児童数のp値が0.11753と0.05よりも大きいので、update関数で削除したモデルを作ります。

f:id:cross_hyou:20210130115919p:plain

anova関数でlm_model2とlm_model3を比較しました。p値が0.1175なのでlm_model2とlm_model3は有意な違いはありません。よってより単純なほうのlm_model3を採用します。

summary関数でlm_model3をみてみましょう。

f:id:cross_hyou:20210130120214p:plain

p-valueは0.00153と0.05よりも小さいので有意な統計モデルです。

dg_h = 14.2784 - 4.7171 x pc_h + 0.3802 x dg_c

という式です。高等学校のPC1台当たりの児童数の多いところは整備率は低い、中学校のデジタル教科書の整備率が高いところは高等学校の整備率も高いということですね。

残差プロットを描いてみます。

f:id:cross_hyou:20210130121712p:plain

f:id:cross_hyou:20210130121651p:plain

40, 17, 41番目の都道府県がかなり大きくはずれています。どこでしょうか？

f:id:cross_hyou:20210130121956p:plain

福岡県、石川県、佐賀県という前回のクラスター分析で他とは違っている３県でした。

この3県を除外したデータで回帰分析をしてみます。

f:id:cross_hyou:20210130122540p:plain

update関数で単純化します。

f:id:cross_hyou:20210130122902p:plain

summary関数でlm_model_bを見てみます。

f:id:cross_hyou:20210130123054p:plain

残差プロットを描いてみましょう。

f:id:cross_hyou:20210130123308p:plain

f:id:cross_hyou:20210130123323p:plain

残差がだいぶちいさくなっていることがわかります。

わかりやすいように、lm_model3の残差プロットとlm_model_bの残差プロットを重ねて描いてみます。

f:id:cross_hyou:20210130123726p:plain

f:id:cross_hyou:20210130123739p:plain

黒いプロットがlm_model3で赤いプロットがlm_model_bです。lm_model_bのほうが残差が小さいことがわかります。

今回は以上です。

次回は、

www.crosshyou.info

です。

はじめから読むには、

www.crosshyou.info

です。