Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

東証の業種別空売りデータの分析4 - データが正規分布をしているかどうか。skewとkurtosisの観点から。

 

www.crosshyou.infoの続きです。

今回は、規制有り、規制無し、前日比の各データの分布が正規分布かどうかを調べます。

skewとkurtosisを計算してこの値が有意に0と違っていれば正規分布では無いとわかります。

skewは分子は、 m3 = sum((y - ybar)^3) / n で、分母が s3 = sqrt(variance)^3 です。

skewを計算する関数を定義します。

f:id:cross_hyou:20200621094427j:plain

規制有りのskewを計算してみます。

f:id:cross_hyou:20200621094704j:plain

規制有りのskewは-0.723です。値がマイナスということは、分布の形状が左側の裾野が広いということです。

こうして求めたskewをskewの標準誤差、sqrt(6/n)で割り算します。

f:id:cross_hyou:20200621095139j:plain

この -1.697812が有意に0と違うかどうかをpt関数で計算します。自由度は、平均値とvarianceを使ってskewを計算しているので、データの数から2を引いた値になります。

f:id:cross_hyou:20200621095426j:plain

0.04978081と0.05よりも小さいので、規制有りの分布は正規分布とは言えません。

同じ作業を規制無しでもやってみます。

f:id:cross_hyou:20200621095906j:plain

規制無しのskewはプラスの値です。分布の形状が右側の裾野が広いということですね。

このskew規制無しをsqrt(6/n)で割ります。

f:id:cross_hyou:20200621100129j:plain

4.185074を検定します。

f:id:cross_hyou:20200621100318j:plain

0.0001089と0.05よりも小さいですので、規制無しも正規分布とは言えないです。

前日比はどうでしょうか?

f:id:cross_hyou:20200621100517j:plain

前日比は前の二つと比べると、0に近いですね。sqrt(6/n)で割り算します。

f:id:cross_hyou:20200621100748j:plain

pt関数で検定します。

f:id:cross_hyou:20200621100920j:plain

0.0247と0.05よりも大きいので、前日比は正規分布ではないとは言えないです。

kurtosisも計算してみましょう。

kurtosisは、m4 = sum((y - ybar)^4)/n, s4 = variance^2 とすると、

m4 / s4 - 3 となります。

kurtosisを計算する関数を作ります。

f:id:cross_hyou:20200621101438j:plain

前日比のkurtosisを計算します。

f:id:cross_hyou:20200621101610j:plain

kurtosisは正規分布だと0で、プラスの値だと尖っていて、マイナスの値だと平坦になります。前日比はプラスの値なので、少し尖っているのですね。

このkurtosisをkurtosisの標準誤差のsqrt(24/n)で割ります。

f:id:cross_hyou:20200621102052j:plain

0.1779447をpt関数でt検定します。

f:id:cross_hyou:20200621102221j:plain

0.4299と0.05よりも大きいですので、kurtosisが0ではないとは言えないです。

skew, kurtosisから見ると、前日比は正規分布ではないとは言えないです。

今回は以上です。

今回もMichael J. Crawley著 「Statistics An introduction using R」を参考にしました。