www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

建設総合統計のデータ分析2 - R言語で1変数のデータ分析の練習。Total(総計)を例にして。

 

www.crosshyou.info

 の続きです。

今回は、R言語で1変数のデータ分析の練習をします。

参考図書は、Michael J. CrawleyのStatistics An Introduction Using Rです。

 

Statistics: An Introduction Using R

Statistics: An Introduction Using R

  • 作者:Michael J. Crawley
  • 出版社/メーカー: Wiley
  • 発売日: 2014/11/24
  • メディア: ペーパーバック
 

 Total(総計)の変数を題材にして練習します、

まずはsummary関数で基本統計量を算出します。

f:id:cross_hyou:20200219194745p:plain

 

これは前回もやりました。

次は、boxplot関数で箱ひげ図を描きます。

f:id:cross_hyou:20200219194947p:plain

f:id:cross_hyou:20200219194957p:plain

外れ値は無いことがわかります。黒い水平線は中央値で、箱の上の線は75%、下の線は25%の水準です。大きい方に広がっている分布ですね。

hist関数でヒストグラムを描きます。

f:id:cross_hyou:20200219195336p:plain

f:id:cross_hyou:20200219195314p:plain

次はtable関数とlength関数を使って、値の違うデータが何個あるか数えます。

f:id:cross_hyou:20200219195528p:plain

36個です。36年間のデータ全部、値が違います。

rug plotというのを作成してみます。

f:id:cross_hyou:20200219200023p:plain

f:id:cross_hyou:20200219200047p:plain

次はqqnorm関数とqqline関数でQ-Q Plotを描いてみみます。

f:id:cross_hyou:20200219200359p:plain

f:id:cross_hyou:20200219200429p:plain

S字型にプロットされていますね。

wilcox.test関数で平均値が60兆3485億円かどうかをテストしてみます。

f:id:cross_hyou:20200219200901p:plain

p値が0.7621ですから平均値は60兆3485億円と言えます。

The Central Limit Theoremというのがあります。母集団からサンプルをいくつか取り出してその平均値を計算します。これを何回も繰り返すと平均値は正規分布する、というものです。これを実際に試してみましょう。

f:id:cross_hyou:20200219202215p:plain

f:id:cross_hyou:20200219202228p:plain

右の青いヒストグラムがTotalを5個取り出して平均値を計算する、という作業を1万回繰り返した結果のヒストグラムです。左側はTotalを1個取り出す、という作業を1万回繰り返したものです。左側のヒストグラムの形状はもとのTotalのヒストグラムと同じようなかたちです。

mean_outcomeのsummaryを見てみます。

f:id:cross_hyou:20200219202732p:plain

平均値は60兆3215億円、標準偏差が5兆4991億円です。

こんどは、mean_outcomeのQ-Q Plotを描いてみます。

f:id:cross_hyou:20200219204226p:plain

f:id:cross_hyou:20200219204241p:plain

今回は以上です。