Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

全産業活動指数・建設業活動指数・鉱工業生産指数・第3次産業活動指数の分析2 - Varianceの練習

 

www.crosshyou.info

 の続きです。

今回は

 

Statistics: An Introduction Using R by Michael J. Crawley(2014-11-24)

Statistics: An Introduction Using R by Michael J. Crawley(2014-11-24)

 

 の第4章、Varianceのところを練習してみようと思います。

varianceの定義ですが、まず、平均値を計算して、個々のデータと平均値の差を2乗し、それを合計します。その合計した値をデータの個数より一つ少ない数で割ります。

文章よりも数式のほうが簡単でしょう。

f:id:cross_hyou:20190724191812j:plain

function関数で、my_varという名前でvarianceを計算する関数をつくりました。Rにはもともとvar関数というvarianceを計算する関数があります。全産業活動指数のvarianceは8.7ぐらいですね。他の三つも計算します。

f:id:cross_hyou:20190724192305j:plain

建設業活動指数のvarianceは37.7ぐらい、鉱工業生産指数のvarianceは42.4ぐらい、第3次産業活動指数のvarianceは5.3ぐらいです。建設業と鉱工業生産のvarianceは大きく、全産業と第3次産業は小さいですね。

 

さて、varianceは何に使うかというと、信頼性の尺度で使うそうです。

standard errorsという尺度で、varianceをデータの個数で割って平方根を計算した値がstandard errorだそうです。早速計算してみます。

f:id:cross_hyou:20190724193345j:plain

これはどういうことかと言うと、

全産業活動指数を例にすると、平均値とデータの個数も使って

f:id:cross_hyou:20190724193619j:plain

全産業活動指数は、102.1496±0.252(1 s.e., n = 137)と書くそうです。

さて、もう一つvarianceから派生する値があります。これはconfidence intervalというもで、〇〇%の確率で平均値がconfidence intervalの中に入る、ということのようです。

例えば、95%の確率だと、qt(0.975, 自由度) x standard errors という計算式のようです。qt関数は自由度ど確率を与えてt値を計算する関数のようです。

早速計算してみましょう。

f:id:cross_hyou:20190724194916j:plain

全産業活動指数のconfidence intervalは0.498ぐらいです。

これは、全産業活動指数は、102.1496±0.498(95% CI, n = 137)と書くようです。

今度は、平均値、データの個数、standard error、confidence intervalを一度に計算する関数を作成して、4つの変数で試して終わりにしましょう。

f:id:cross_hyou:20190724200009j:plain


まずは、このように関数を作成しました。平均値、観測数、standard errors, confidence intervalを返す関数です。

さっそく4つの変数で試します。

f:id:cross_hyou:20190724200126j:plain

こうなりました。文章で表現すると、

全産業活動指数は、102.15±0.25(1 s.e., n = 137), 102.15±0.50(95% CI, n = 137)

建設業活動指数は、106.43±0.52(1 s.e., n = 137), 106.43±1.04(95% CI, n = 137)

鉱工業生産指数は、99.16±0.56(1 s.e., n = 137), 99.16±1.10(95% CI, n = 137)

第3次産業活動指数は、102.66±0.20(1 s.e., n = 137), 102.66±0.39(95% CI, n = 137)

となります。

今回は以上です。