の続きです。
今回は
Statistics: An Introduction Using R
- 作者: Michael J. Crawley
- 出版社/メーカー: Wiley
- 発売日: 2014/11/24
- メディア: ペーパーバック
- この商品を含むブログを見る
を参考にして、PC1台当りの生徒数の平均値と95%の信頼区間を求めます。
まず、PC1台当りの合計値を求めます。
R言語のsum関数を使って、708.5とわかりますた。
観測数をlength関数で求めます。
観測数は、141です。なので平均値は、708.5 / 141 ですね。
平均値は、5.024823人です。mean関数で直接求めることもできます。
信頼区間95%を求めるためには、まず、分散が必要です。分散を求めるには、まず、それぞれの観測値と平均値の差を求め、それを2乗し、合計します。そうした合計値を、自由度(この場合は観測数-1)で割ります。
文章で書くと長いですが、数式だと短いです。
数式にすると、sum*1^2) / (length(df2$Comp) - 1)です。
var関数で直接求めることも可能です。
分散は、1.789165です。
この分散から標準誤差がわかります。
標準誤差は、分散を観測数で割り、平方根をとったものです。文章でも短いですし、数式でも短いです。
標準誤差が0.112646とわかりました。
PC1台当りの生徒数の平均は、5.024823 ± 0.112646人(1 s.e., n = 141)と表現するそうです。
95%の信頼区間は、標準誤差に、qt(0.975, 自由度)を掛ければいいそうです。
95%の信頼区間は、±0.2227071とわかりました。
PC1台当りの生徒数の平均は、5.024823 ± 0.2227071(95% CI, n = 141)と表現します。
PC1台当りの生徒数の平均は、下限は5.024823 - 0.2227071 = 4.802116
上限は、5.024823 + 0.2227071 = 5.24753とわかります。
この95%の信頼区間や平均値は、t.test関数でわかります。
比べたい平均値が2つあって、その平均値の95%信頼区間が重なっていなければ、その2つの平均値は違いがあると言えますね。
2013年度のPC1台当り生徒数の平均値と、2015年度のPC1台当りの生徒数の平均値を比較してみます。
まずは2013年度の平均値や信頼区間を求めます。
2013年度のPC1台当りの生徒数の平均値は、5.301915 ± 0.3523389人(95% CI, n = 47)です。
2015年度も同じように求めます。
2013年度のPC1台当り生徒数の平均値は、4.997872 ± 0.4366339人(95% CI, n = 47)です。
2つの平均値の信頼区間は重なっていますから、違いがあるとは言えないですね。
最後にbarplot関数で平均値の棒グラフを描き、arrows関数で信頼区間を付け足します。
今回は以上です。
*1:df2$Comp - mean(df2$Comp