の続きです。
前回は2017年のデータだけで回帰分析をしました。
今回はその他の調査年のデータも入れて分析してみます。
p-valueは2.2e-16より小さいので有意なモデルです。pc_hとdg_cの係数のp値が0.05で有意です。pc_hの値が低いほど、つまり高等学校のPC1台当たりの児童数が少ないほど、dg_cの値が高いほど、つまり中学校のデジタル教科書の整備率が高いほど、高等学校のデジタル教科書の整備率が高いということがわかります。
step関数でモデルを単純化します。
all_model1とall_model2は有意な違いはありません。より単純なall_model2をみてみましょう。
dg_h = 10.58982 - 3.73682 * pc_h + 0.36628 * dg_c + u(誤差項)
というモデル式です。
中学校のデジタル教科書の整備率が高くで高等学校にPCがいっぱいある都道府県ほど、高等学校のデジタル教科書の整備率が高いということですね。
残差プロットをみてみましょう。
実際の値とモデルの予測値の散布図を描いてみましょう。
赤い線が切片0、傾き1の直線です。もう少し、フィットさせたいですね。。
2乗項を追加してみます。
anova関数で、all_model2と2乗項を追加したall_model3を比較すると、p値が0.05よりも小さく、有意に違うという結果になりました。
all_model3のサマリを見てみます。
Adjusted R-squaredが0.4695とall_modelのAdjusted R-squaredの0.3255よりもいいですね。all_model3のほうがいいです。
残差プロットを描いてみましょう。
実際の値と予測値の散布図を描いてみます。
こちらのほうがいい感じのような気がします。
all_model2の残差とall_model3の残差を比較してみます。
ggplot2パッケージでgeom_density関数を使いました。
all_model3のほうが残差が0近辺に集中していることがわかります。
今回は以上です。
次回は、
です。
はじめから読むには、
です。