www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

乗用車ブランド通称名別順位のデータ分析３ - R言語でヒストグラムや箱ひげ図を作成する。1月と2月の販売台数をt.test関数、wilcox.test関数で検定。

データ分析

www.crosshyou.info

の続きです。

今回は販売台数をグラフにしてみましょう。

まずは、小さい順グラフ、ヒストグラム、箱ひげ図の３つのグラフを一度に作成する関数を作ります。

f:id:cross_hyou:20191116095130p:plain

gpという名前の関数を作りました。

それでは販売台数をグラフにしてみます。

f:id:cross_hyou:20191116095358p:plain

f:id:cross_hyou:20191116095424p:plain

青い線が中央値、赤い線が平均値なので、平均値のほうが大きいことがわかります。ヒストグラムの形状は右の裾野が広いですね。箱ひげ図では、値が小さいほうには外れ値は無いですが、値が大きいほうに外れ値が多いことがわかります。

1月だけ、2月だけでグラフを作成してみましょう。

f:id:cross_hyou:20191116095855p:plain

f:id:cross_hyou:20191116095906p:plain

f:id:cross_hyou:20191116100046p:plain

f:id:cross_hyou:20191116100058p:plain

1月も2月も分布の形状は同じような形状ですね。

1月だけの販売台数の平均値や信頼区間をみてみます。前回に作成したsummary2関数を使います。

f:id:cross_hyou:20191116100345p:plain

1月の販売台数の平均値は3700台、varianceは7095741、変動係数は0.720、平均値の95%の信頼区間は2943台から4456台です。

2月だけの販売台数はどうでしょうか？

f:id:cross_hyou:20191116101856p:plain

2月の販売台数の平均値は4435台、varianceは9877172、変動係数は0.709, 平均値の95%の信頼区間は3542台から5328台です。

1月と2月の平均値は、信頼区間が重なっていますので、違いがあるとは言えなのではないでしょうか？平均値が同じかどうかの検定をしてみます。

参考図書は STATISTICS : An Introduction using R by Michael J. Crawleyです。

Statistics: An Introduction Using R

Statistics: An Introduction Using R

作者: Michael J. Crawley
出版社/メーカー: Wiley
発売日: 2014/11/24
メディア: ペーパーバック
この商品を含むブログを見る

まず1月と2月でvarianceが同じかどうかを検定します。

1月のvarianceが7095741で2月のvarianceが9877172です。二つのvarianceの比率がF ratioです。

f:id:cross_hyou:20191116102600p:plain

1月も2月もデータ数は50ですから、自由度は49です。二つのvarianceが有意に違わないという帰無仮説が正しいという確率を求めます。

f:id:cross_hyou:20191116103138p:plain

0.25ですから、2つのvarianceが有意に違うとは言い切れないですね。つまり、2つのvarianceが同じとみなして検定してもいい、ということです。

var.test関数でも確認しましょう。

f:id:cross_hyou:20191116103503p:plain

p-value = 0.2505とpf関数で計算した値と同じになりました。

二つのvarianceが同じとき、平均値が同じかどうかを検定するのはt.test関数を使います。やってみましょう。

f:id:cross_hyou:20191116104016p:plain

p-value = 0.2102なので、0.05よりも大きな値ですから、2つの平均値には有意な違いは無い、という帰無仮説を棄却できません。つまり、2つの平均値には有意な違いが無いということです。

Wilcoxson's Rank-Sum Testもやってみましょう。wilcox.test関数を使います。

f:id:cross_hyou:20191116104506p:plain

p-value = 0.1985と0.05よりも大きいです。この検定でも1月と2月の販売台数の平均値に違いがあるとは言えません。

今回は以上です。