www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の老人福祉費と児童福祉費の分析4 -R言語で Variance(分散)を調べ、standard error(標準誤差)とconfidence interval(信頼区間)を求める。

 

www.crosshyou.info

 の続きです。

今回は、variance(分散)を調べます。上に画像のある、Michael J. CrawleyのStatistics An Introduction using Rを参考にします。

varianceはvar関数で簡単にわかります。

10年間平均の老人福祉の対数の分散は、

f:id:cross_hyou:20191002175641j:plain

0.07579028とわかります。

varianceは、

それぞれの観測値と平均値の差を2乗する

それを合計する

観測値の数-1で割る。

です。

やってみます。

f:id:cross_hyou:20191002180332j:plain

はい、0.07579028ですね。

10年間平均の児童福祉の平均値もvar関数で計算しましょう。

f:id:cross_hyou:20191002180523j:plain

0.07496646です。

対数でなくて実際の金額でも計算しましょう。

f:id:cross_hyou:20191002180726j:plain

2.282334e+15は小数点以下の数字が15個あるということです。

228京2334兆0000億0000万0千円^2です。

8.802981e+14は小数点以下が14個あるといことですので、

88京0298兆1000億0000万0千円^2です。

老人福祉費と児童福祉費では分散が228京円^2と88京円^2と大きく違います。二つの分散は違うと言えるでしょうか?var.test関数を使います。

f:id:cross_hyou:20191002181929j:plain

p-valueが0.001601と0.05よりも小さいので、ふたつのvarianceは違うと言えます。

varianceは、standard errors、confidence intervalsを計算するのに使います。

standard errorsは標準誤差と日本語では言うようです。

standard errorsは、

variance(分散)をデータの個数で割る

その平方根を計算する

で計算できます。

やってみます。

f:id:cross_hyou:20191002182726j:plain

standard errorは平均値と組み合わせて使うようです。

f:id:cross_hyou:20191002182928j:plain

10年間の老人福祉費の47都道府県の平均値は、

569億4643万7千円±69億6852万2千円(1 s.e., n = 47)

10年間の児童福祉費の47都道府県の平均値は、

276億9779万3千円±43億2778万8千円(1 s.e., n = 47)

と記述するようです。

confidence intervalは信頼区間と言うようです。

これは計算方法をここに書くのが難しいですが、t-valueにstandard errorを掛けた値だそうです。

t-valueはqt関数でできます。t-valueは95%だと観測数でかわりますが、だいたい2ぐらいです。

f:id:cross_hyou:20191002184130j:plain

こうして信頼区間がわかったらm

10年間の老人福祉費の47都道府県の平均値は、

569億4643万7千円±140億2690万7千円(95% CI, n = 47)

10年間の児童福祉費の47都道府県の平均値は

276億9779万3千円±87億1138万5千円(95% CI, n = 47)

と記述するそうです。

今回は以上です。