www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のデジタル教科書の整備率のデータの分析6 - R言語のlm関数で回帰分析をする。高等学校のデジタル教科書の整備率は中学校のデジタル教科書の整備率と高等学校のPC台数に関連がある。

 

www.crosshyou.info

 の続きです。

前回は2017年のデータだけで回帰分析をしました。

今回はその他の調査年のデータも入れて分析してみます。

f:id:cross_hyou:20210130165307p:plain

p-valueは2.2e-16より小さいので有意なモデルです。pc_hとdg_cの係数のp値が0.05で有意です。pc_hの値が低いほど、つまり高等学校のPC1台当たりの児童数が少ないほど、dg_cの値が高いほど、つまり中学校のデジタル教科書の整備率が高いほど、高等学校のデジタル教科書の整備率が高いということがわかります。

step関数でモデルを単純化します。

f:id:cross_hyou:20210130165739p:plain

all_model1とall_model2は有意な違いはありません。より単純なall_model2をみてみましょう。

f:id:cross_hyou:20210130165946p:plain

dg_h = 10.58982 - 3.73682 * pc_h + 0.36628 * dg_c + u(誤差項)

というモデル式です。

中学校のデジタル教科書の整備率が高くで高等学校にPCがいっぱいある都道府県ほど、高等学校のデジタル教科書の整備率が高いということですね。

残差プロットをみてみましょう。

f:id:cross_hyou:20210130170541p:plain

f:id:cross_hyou:20210130170557p:plain

実際の値とモデルの予測値の散布図を描いてみましょう。

f:id:cross_hyou:20210130171951p:plain

f:id:cross_hyou:20210130172037p:plain

赤い線が切片0、傾き1の直線です。もう少し、フィットさせたいですね。。

2乗項を追加してみます。

f:id:cross_hyou:20210130172548p:plain

anova関数で、all_model2と2乗項を追加したall_model3を比較すると、p値が0.05よりも小さく、有意に違うという結果になりました。

all_model3のサマリを見てみます。

f:id:cross_hyou:20210130172822p:plain

Adjusted R-squaredが0.4695とall_modelのAdjusted R-squaredの0.3255よりもいいですね。all_model3のほうがいいです。

残差プロットを描いてみましょう。

f:id:cross_hyou:20210130174353p:plain

f:id:cross_hyou:20210130174409p:plain

実際の値と予測値の散布図を描いてみます。

f:id:cross_hyou:20210130174702p:plain

f:id:cross_hyou:20210130174719p:plain

こちらのほうがいい感じのような気がします。

all_model2の残差とall_model3の残差を比較してみます。

ggplot2パッケージでgeom_density関数を使いました。

f:id:cross_hyou:20210130175717p:plain

f:id:cross_hyou:20210130175733p:plain

all_model3のほうが残差が0近辺に集中していることがわかります。

今回は以上です。

次回は、

 

www.crosshyou.info

 です。

はじめから読むには、

 

www.crosshyou.info

 です。