の続きです。
今回は2つの変数の平均を比較して有意な違いがあるかどうかをR言語で検定しましょう。
まずは、全店客単価と既存店客単価を比較しましょう。summary関数で基本統計量をみてみましょう。
こうして両者を比較すると、最小値から最大値まですべて全店客単価のほうが値が高くなっていますね。
ヒストグラムで比較してみましょう。
まず、kugiri <- のコマンドでヒストグラムの各区間を設定します。
par(mfrow = c(2, 1)) のコマンドで一つのグラフィックパネルに2つのグラフを配置する設定にします。
そして、hist関数で2つのヒストグラムを描きます。col = "blue"で青く、col = "red"で赤くしています。
ヒストグラムを見ても全店客単価のほうが値が大きいようですね。
t.test関数で t検定をします。
p-value = 0.03879 と 0.05 よりも小さいので全店客単価と既存店客単価の平均値は有意に違いがあります。
この全店客単価と既存店客単価は同じ年月に観測されたデータです。つまり、ペアになっているデータということです。この場合には、t.test関数で paired = TRUE というオプションを加えて検定します。
p-value = 2.235e-07 と先ほどよりもさらに小さい p値になりました。
結果の下の2行を見ると、mean of the differences 8.370833 と表示されています。全店売上高と既存店売上高では平均すると8円37銭の違いがあるということがわかります。
二つの単価の分布の位置に違いがあるかどうかも検定しましょう。ノンパラメトリック検定のウィルコクソン=マン・ホイットニー検定を使いましょう。wilcox.test関数です。
p-value = 3.63e-05 と 0.05 よりも小さい値です。全店客単価と既存店客単価の分布の位置は違いは統計的に有意な違いであることがわかりました。
もう一つ、全店来客数の前年同月比と既存店来客数の前年同月比を比較してみましょう。summary関数で両者を比較してみます。
既存店来客数の前年同月比のほうが範囲が大きいですね。
ヒストグラムで比較してみましょう。
全店来客数の前年同月比は真ん中に集中していますが、既存店のほうがまんべんなくばらけている印象です。
コルモゴロフ=スミルノフ検定でこの両者の分布が同じかどうかを検定しましょう。ks.test関数を使います。
p-value = 0.2558 と 0.05 よりも大きな p値です。これは両者が同じ分布であり得ることを意味します。
それでは、t.test関数で両者の平均値に違いがあるかどうかを検定します。
p-value = 0.4138 と 0.05 よりも大きい p値です。つまり、両者の平均値に違いがあるとは言えないです。
wilcox.test関数で分布位置についても検定しましょう。
p-value = 0.5693 と 0.05 よりも大きな p値です。つまり、両者の分布位置に違いがあるとは言えないです。
今回は以上です。
次回は
です。