の続きです。
今回は販売台数をグラフにしてみましょう。
まずは、小さい順グラフ、ヒストグラム、箱ひげ図の3つのグラフを一度に作成する関数を作ります。
gpという名前の関数を作りました。
それでは販売台数をグラフにしてみます。
青い線が中央値、赤い線が平均値なので、平均値のほうが大きいことがわかります。ヒストグラムの形状は右の裾野が広いですね。箱ひげ図では、値が小さいほうには外れ値は無いですが、値が大きいほうに外れ値が多いことがわかります。
1月だけ、2月だけでグラフを作成してみましょう。
1月も2月も分布の形状は同じような形状ですね。
1月だけの販売台数の平均値や信頼区間をみてみます。前回に作成したsummary2関数を使います。
1月の販売台数の平均値は3700台、varianceは7095741、変動係数は0.720、平均値の95%の信頼区間は2943台から4456台です。
2月だけの販売台数はどうでしょうか?
2月の販売台数の平均値は4435台、varianceは9877172、変動係数は0.709, 平均値の95%の信頼区間は3542台から5328台です。
1月と2月の平均値は、信頼区間が重なっていますので、違いがあるとは言えなのではないでしょうか?平均値が同じかどうかの検定をしてみます。
参考図書は STATISTICS : An Introduction using R by Michael J. Crawleyです。
Statistics: An Introduction Using R
- 作者: Michael J. Crawley
- 出版社/メーカー: Wiley
- 発売日: 2014/11/24
- メディア: ペーパーバック
- この商品を含むブログを見る
まず1月と2月でvarianceが同じかどうかを検定します。
1月のvarianceが7095741で2月のvarianceが9877172です。二つのvarianceの比率がF ratioです。
1月も2月もデータ数は50ですから、自由度は49です。二つのvarianceが有意に違わないという帰無仮説が正しいという確率を求めます。
0.25ですから、2つのvarianceが有意に違うとは言い切れないですね。つまり、2つのvarianceが同じとみなして検定してもいい、ということです。
var.test関数でも確認しましょう。
p-value = 0.2505とpf関数で計算した値と同じになりました。
二つのvarianceが同じとき、平均値が同じかどうかを検定するのはt.test関数を使います。やってみましょう。
p-value = 0.2102なので、0.05よりも大きな値ですから、2つの平均値には有意な違いは無い、という帰無仮説を棄却できません。つまり、2つの平均値には有意な違いが無いということです。
Wilcoxson's Rank-Sum Testもやってみましょう。wilcox.test関数を使います。
p-value = 0.1985と0.05よりも大きいです。この検定でも1月と2月の販売台数の平均値に違いがあるとは言えません。
今回は以上です。