の続きです。
今回は、variance(分散)を調べます。上に画像のある、Michael J. CrawleyのStatistics An Introduction using Rを参考にします。
varianceはvar関数で簡単にわかります。
10年間平均の老人福祉の対数の分散は、
0.07579028とわかります。
varianceは、
それぞれの観測値と平均値の差を2乗する
それを合計する
観測値の数-1で割る。
です。
やってみます。
はい、0.07579028ですね。
10年間平均の児童福祉の平均値もvar関数で計算しましょう。
0.07496646です。
対数でなくて実際の金額でも計算しましょう。
2.282334e+15は小数点以下の数字が15個あるということです。
228京2334兆0000億0000万0千円^2です。
8.802981e+14は小数点以下が14個あるといことですので、
88京0298兆1000億0000万0千円^2です。
老人福祉費と児童福祉費では分散が228京円^2と88京円^2と大きく違います。二つの分散は違うと言えるでしょうか?var.test関数を使います。
p-valueが0.001601と0.05よりも小さいので、ふたつのvarianceは違うと言えます。
varianceは、standard errors、confidence intervalsを計算するのに使います。
standard errorsは標準誤差と日本語では言うようです。
standard errorsは、
variance(分散)をデータの個数で割る
その平方根を計算する
で計算できます。
やってみます。
standard errorは平均値と組み合わせて使うようです。
10年間の老人福祉費の47都道府県の平均値は、
569億4643万7千円±69億6852万2千円(1 s.e., n = 47)
10年間の児童福祉費の47都道府県の平均値は、
276億9779万3千円±43億2778万8千円(1 s.e., n = 47)
と記述するようです。
confidence intervalは信頼区間と言うようです。
これは計算方法をここに書くのが難しいですが、t-valueにstandard errorを掛けた値だそうです。
t-valueはqt関数でできます。t-valueは95%だと観測数でかわりますが、だいたい2ぐらいです。
こうして信頼区間がわかったらm
10年間の老人福祉費の47都道府県の平均値は、
569億4643万7千円±140億2690万7千円(95% CI, n = 47)
10年間の児童福祉費の47都道府県の平均値は
276億9779万3千円±87億1138万5千円(95% CI, n = 47)
と記述するそうです。
今回は以上です。