www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の教育用PC1台当り生徒数の分析2 - 信頼区間95%の平均値を求める

 

www.crosshyou.info

 の続きです。

今回は

 

Statistics: An Introduction Using R

Statistics: An Introduction Using R

 

 を参考にして、PC1台当りの生徒数の平均値と95%の信頼区間を求めます。

まず、PC1台当りの合計値を求めます。

f:id:cross_hyou:20190826075004j:plain

R言語のsum関数を使って、708.5とわかりますた。

観測数をlength関数で求めます。

f:id:cross_hyou:20190826075213j:plain

観測数は、141です。なので平均値は、708.5 / 141 ですね。

f:id:cross_hyou:20190826075411j:plain

平均値は、5.024823人です。mean関数で直接求めることもできます。

信頼区間95%を求めるためには、まず、分散が必要です。分散を求めるには、まず、それぞれの観測値と平均値の差を求め、それを2乗し、合計します。そうした合計値を、自由度(この場合は観測数-1)で割ります。

文章で書くと長いですが、数式だと短いです。

f:id:cross_hyou:20190826080728j:plain

数式にすると、sum*1^2) / (length(df2$Comp) - 1)です。
var関数で直接求めることも可能です。

分散は、1.789165です。

この分散から標準誤差がわかります。

標準誤差は、分散を観測数で割り、平方根をとったものです。文章でも短いですし、数式でも短いです。

f:id:cross_hyou:20190826081748j:plain

標準誤差が0.112646とわかりました。

PC1台当りの生徒数の平均は、5.024823 ± 0.112646人(1 s.e., n = 141)と表現するそうです。

95%の信頼区間は、標準誤差に、qt(0.975, 自由度)を掛ければいいそうです。

f:id:cross_hyou:20190826083342j:plain

95%の信頼区間は、±0.2227071とわかりました。

PC1台当りの生徒数の平均は、5.024823 ± 0.2227071(95% CI, n = 141)と表現します。

PC1台当りの生徒数の平均は、下限は5.024823 - 0.2227071 = 4.802116
上限は、5.024823 + 0.2227071 = 5.24753とわかります。

この95%の信頼区間や平均値は、t.test関数でわかります。

f:id:cross_hyou:20190826084022p:plain

比べたい平均値が2つあって、その平均値の95%信頼区間が重なっていなければ、その2つの平均値は違いがあると言えますね。

2013年度のPC1台当り生徒数の平均値と、2015年度のPC1台当りの生徒数の平均値を比較してみます。

まずは2013年度の平均値や信頼区間を求めます。

f:id:cross_hyou:20190826085638j:plain

2013年度のPC1台当りの生徒数の平均値は、5.301915 ± 0.3523389人(95% CI, n = 47)です。

2015年度も同じように求めます。

f:id:cross_hyou:20190826090237j:plain

2013年度のPC1台当り生徒数の平均値は、4.997872 ± 0.4366339人(95% CI, n = 47)です。

f:id:cross_hyou:20190826090713j:plain

2つの平均値の信頼区間は重なっていますから、違いがあるとは言えないですね。

最後にbarplot関数で平均値の棒グラフを描き、arrows関数で信頼区間を付け足します。

f:id:cross_hyou:20190826092335j:plain

f:id:cross_hyou:20190826092322j:plain

今回は以上です。

 

*1:df2$Comp - mean(df2$Comp