の続きです。
今回は株価のデータを分析してみます。
market別の株価の分布を見てみます。
東証に属する銘柄、リートやインフラファンドですが、株価が他と比べると特段に高いですね。Y軸を対数にしてグラフにしてみます。
tapply関数でmarket別の株価の平均値を計算しましょう。
東証は12万9260円、東証1部は1178円、東証2部は284円、東証JQSは601円ぐらいが平均値(1円未満切り捨て)です。
東証1部の株価と東証JQSの株価の平均値に違いがあるかを調べます。
まず、var.test関数で分散に違いがあるのかないのかを確認します。
var.test関数の結果、p値が0.001196と0.05よりも小さいので、東証1部の銘柄の株価の分散と東証JQSの銘柄の株価の分散が同じとは言えないことがわかりました。
分散が違うとt検定は使えない(Statistics An introduction using R by Michael J. Crawleyのp58)ので、Wilcoxon Rank-Sum Testをします。wilcox.test関数です。
p値が0.1634と0.05よりも大きいので、東証1部の株価の分布位置と東証JQSの株価の分布位置に違いがあるとは言えません。
参考として、t.test関数の結果もみてみましょう。
p値が0.008712と0.05よりも小さいので、t検定では平均値に違いがあるという結果になります。分散の違いを確認せずにt検定をしてしまうと誤った結論になってしまいますね。
東証1部の株価と東証JQSの株価の分布をグラフにしてみます。
このようにグラフにすると、よくわかります。東証JQSの銘柄の株価の分布は東証1部の銘柄の株価の分布に内包されています。水平線がそれぞれの平均値です。
こちらの本の58ページ目に
when the variances are different, don't compare the mean.
とあります。
今回は以上です。
はじめから読むには、
です。