の続きです。
今回は、R言語で1変数のデータ分析の練習をします。
参考図書は、Michael J. CrawleyのStatistics An Introduction Using Rです。
Statistics: An Introduction Using R
- 作者:Michael J. Crawley
- 出版社/メーカー: Wiley
- 発売日: 2014/11/24
- メディア: ペーパーバック
Total(総計)の変数を題材にして練習します、
まずはsummary関数で基本統計量を算出します。
これは前回もやりました。
次は、boxplot関数で箱ひげ図を描きます。
外れ値は無いことがわかります。黒い水平線は中央値で、箱の上の線は75%、下の線は25%の水準です。大きい方に広がっている分布ですね。
hist関数でヒストグラムを描きます。
次はtable関数とlength関数を使って、値の違うデータが何個あるか数えます。
36個です。36年間のデータ全部、値が違います。
rug plotというのを作成してみます。
次はqqnorm関数とqqline関数でQ-Q Plotを描いてみみます。
S字型にプロットされていますね。
wilcox.test関数で平均値が60兆3485億円かどうかをテストしてみます。
p値が0.7621ですから平均値は60兆3485億円と言えます。
The Central Limit Theoremというのがあります。母集団からサンプルをいくつか取り出してその平均値を計算します。これを何回も繰り返すと平均値は正規分布する、というものです。これを実際に試してみましょう。
右の青いヒストグラムがTotalを5個取り出して平均値を計算する、という作業を1万回繰り返した結果のヒストグラムです。左側はTotalを1個取り出す、という作業を1万回繰り返したものです。左側のヒストグラムの形状はもとのTotalのヒストグラムと同じようなかたちです。
mean_outcomeのsummaryを見てみます。
平均値は60兆3215億円、標準偏差が5兆4991億円です。
こんどは、mean_outcomeのQ-Q Plotを描いてみます。
今回は以上です。