の続きです。
今回はdg_h: 高等学校のデジタル教科書の整備率をその他の変数で回帰分析してみます。R言語のlm関数を使います。
p-valueは0.01039なので有意なモデルです。各変数の係数のp値を見ると、pc_h: 高等学校のPC1台当たりの児童数だけが有効なようです。
step関数で不要な変数を削除してみます。
anova関数でlm_model1とlm_model2を比較しました。p値は0.9791なので、lm_model1とlm_model2とは有意な違いはありません。そこでより単純なlm_model2のほうを採用します。
summary関数でlm_model2を見てみます。
pc_c: 中学校のPC1台当たりの児童数のp値が0.11753と0.05よりも大きいので、update関数で削除したモデルを作ります。
anova関数でlm_model2とlm_model3を比較しました。p値が0.1175なのでlm_model2とlm_model3は有意な違いはありません。よってより単純なほうのlm_model3を採用します。
summary関数でlm_model3をみてみましょう。
p-valueは0.00153と0.05よりも小さいので有意な統計モデルです。
dg_h = 14.2784 - 4.7171 x pc_h + 0.3802 x dg_c
という式です。高等学校のPC1台当たりの児童数の多いところは整備率は低い、中学校のデジタル教科書の整備率が高いところは高等学校の整備率も高いということですね。
残差プロットを描いてみます。
40, 17, 41番目の都道府県がかなり大きくはずれています。どこでしょうか?
福岡県、石川県、佐賀県という前回のクラスター分析で他とは違っている3県でした。
この3県を除外したデータで回帰分析をしてみます。
update関数で単純化します。
summary関数でlm_model_bを見てみます。
残差プロットを描いてみましょう。
残差がだいぶちいさくなっていることがわかります。
わかりやすいように、lm_model3の残差プロットとlm_model_bの残差プロットを重ねて描いてみます。
黒いプロットがlm_model3で赤いプロットがlm_model_bです。lm_model_bのほうが残差が小さいことがわかります。
今回は以上です。
次回は、
です。
はじめから読むには、
です。