配当ランキングのデータ分析３ - R言語で株価のデータを分析する。分散が違うときは平均値を比べてはいけない。

の続きです。

今回は株価のデータを分析してみます。

market別の株価の分布を見てみます。

f:id:cross_hyou:20201231092650p:plain

f:id:cross_hyou:20201231092704p:plain

東証に属する銘柄、リートやインフラファンドですが、株価が他と比べると特段に高いですね。Y軸を対数にしてグラフにしてみます。

f:id:cross_hyou:20201231093009p:plain

f:id:cross_hyou:20201231093024p:plain

tapply関数でmarket別の株価の平均値を計算しましょう。

f:id:cross_hyou:20201231093335p:plain

東証は12万9260円、東証1部は1178円、東証2部は284円、東証JQSは601円ぐらいが平均値(1円未満切り捨て)です。

東証1部の株価と東証JQSの株価の平均値に違いがあるかを調べます。

まず、var.test関数で分散に違いがあるのかないのかを確認します。

f:id:cross_hyou:20201231093920p:plain

var.test関数の結果、p値が0.001196と0.05よりも小さいので、東証1部の銘柄の株価の分散と東証JQSの銘柄の株価の分散が同じとは言えないことがわかりました。

分散が違うとt検定は使えない(Statistics An introduction using R by Michael J. Crawleyのp58)ので、Wilcoxon Rank-Sum Testをします。wilcox.test関数です。

f:id:cross_hyou:20201231094811p:plain

p値が0.1634と0.05よりも大きいので、東証1部の株価の分布位置と東証JQSの株価の分布位置に違いがあるとは言えません。

参考として、t.test関数の結果もみてみましょう。

f:id:cross_hyou:20201231095147p:plain

p値が0.008712と0.05よりも小さいので、t検定では平均値に違いがあるという結果になります。分散の違いを確認せずにt検定をしてしまうと誤った結論になってしまいますね。

東証1部の株価と東証JQSの株価の分布をグラフにしてみます。

f:id:cross_hyou:20201231100304p:plain

f:id:cross_hyou:20201231100319p:plain

このようにグラフにすると、よくわかります。東証JQSの銘柄の株価の分布は東証1部の銘柄の株価の分布に内包されています。水平線がそれぞれの平均値です。

こちらの本の58ページ目に

when the variances are different, don't compare the mean.

とあります。

今回は以上です。

はじめから読むには、

です。