の続きです。
今回は
Statistics: An Introduction Using R by Michael J. Crawley(2014-11-24)
- 作者: Michael J. Crawley
- 出版社/メーカー: Wiley
- 発売日: 2014
- メディア: ?
- この商品を含むブログを見る
の第4章、Varianceのところを練習してみようと思います。
varianceの定義ですが、まず、平均値を計算して、個々のデータと平均値の差を2乗し、それを合計します。その合計した値をデータの個数より一つ少ない数で割ります。
文章よりも数式のほうが簡単でしょう。
function関数で、my_varという名前でvarianceを計算する関数をつくりました。Rにはもともとvar関数というvarianceを計算する関数があります。全産業活動指数のvarianceは8.7ぐらいですね。他の三つも計算します。
建設業活動指数のvarianceは37.7ぐらい、鉱工業生産指数のvarianceは42.4ぐらい、第3次産業活動指数のvarianceは5.3ぐらいです。建設業と鉱工業生産のvarianceは大きく、全産業と第3次産業は小さいですね。
さて、varianceは何に使うかというと、信頼性の尺度で使うそうです。
standard errorsという尺度で、varianceをデータの個数で割って平方根を計算した値がstandard errorだそうです。早速計算してみます。
これはどういうことかと言うと、
全産業活動指数を例にすると、平均値とデータの個数も使って
全産業活動指数は、102.1496±0.252(1 s.e., n = 137)と書くそうです。
さて、もう一つvarianceから派生する値があります。これはconfidence intervalというもで、〇〇%の確率で平均値がconfidence intervalの中に入る、ということのようです。
例えば、95%の確率だと、qt(0.975, 自由度) x standard errors という計算式のようです。qt関数は自由度ど確率を与えてt値を計算する関数のようです。
早速計算してみましょう。
全産業活動指数のconfidence intervalは0.498ぐらいです。
これは、全産業活動指数は、102.1496±0.498(95% CI, n = 137)と書くようです。
今度は、平均値、データの個数、standard error、confidence intervalを一度に計算する関数を作成して、4つの変数で試して終わりにしましょう。
まずは、このように関数を作成しました。平均値、観測数、standard errors, confidence intervalを返す関数です。
さっそく4つの変数で試します。
こうなりました。文章で表現すると、
全産業活動指数は、102.15±0.25(1 s.e., n = 137), 102.15±0.50(95% CI, n = 137)
建設業活動指数は、106.43±0.52(1 s.e., n = 137), 106.43±1.04(95% CI, n = 137)
鉱工業生産指数は、99.16±0.56(1 s.e., n = 137), 99.16±1.10(95% CI, n = 137)
第3次産業活動指数は、102.66±0.20(1 s.e., n = 137), 102.66±0.39(95% CI, n = 137)
となります。
今回は以上です。