今回は、鉱工業出荷内訳表のデータを使って、2つのデータの分布の違いを検定してみたいと思います。具体的には、前回、前々回でも取り上げた、平均値が最大のデータのはん用.国内と平均値が最小のデータの情報通.国内を比較します。もう一組は、標準偏差が最大のデータの情報通.輸出と標準偏差が最小の化学工.出荷を比較します。
まずは、csvファイルに保存してあるデータをread.csv関数でR言語に読込みます。
4つのデータの平均値と標準偏差を一度に計算したいので、4つのデータだけのマトリックスを作成します。matrix関数です。
matrix関数でデータのマトリックスを作成し、colnamesでそれぞれの列に名前を付けています。
summary関数でデータの要約を表示します。
はん用.国内の平均値は111.1です。情報通.国内の平均値は66.0です。
apply関数とsd関数で、標準偏差を計算します。
あ!、情報通.国内のほうが情報通.出荷より大きな標準偏差ですね。すみません、間違えてしまいました。このブログの趣旨はR言語の操作と簡単な統計分析の練習なので、とりあえずこのまま進めます。
分布を比較する2つのデータのヒストグラムを作成してみましょう。hist関数ですね。同じ画面に2つのヒストグラムを作図したいので、par(mfrow=c(2,1))というコマンドを加えます。
あきらかに分布が違いますね。col=で色を指定、main=でタイトルを指定、breaks=でヒストグラムの区間を指定しています。
同じように、情報通.出荷と化学工.出荷もヒストグラムにしてみます。
こちらもあきらかに分布の形状は違いますね。
このような、2つのデータの分布の違いを検定するには、2標本のK-S検定をします。
帰無仮説H0は、データの分布は、はん用.国内と情報通.国内で差がない。
対立仮設H1は、データの分布は、はん用.国内と情報通.国内で異なる。
検定の有意水準はα=0.05とします。
ks.test関数を実行します。
p-value < 2.2e-16 < 0.05 なので、帰無仮説は棄却されます。はん用.国内と情報通.国内の分布の形状は異なります。
次は、情報通.出荷と化学工.出荷の分布の形状の検定です。
帰無仮説は、情報通.出荷と化学工.出荷のデータの分布は差がない。
対立仮設は、情報通.出荷と化学工.出荷のデータの分布は異なる。
検定の推移水準は、α=0.05 とします。
ks.test関数を実行します。
p-value < 2.2e-16 < 0.05 ですから帰無仮説は棄却されます。情報通.出荷と化学工.出荷の分布は異なります。
せっかくですので、情報通.国内と情報通.出荷のペアで検定してみましょう。
まずは、ヒストグラムを並べてみましょう。
似ていますね。それでは、検定しましょう。
帰無仮説は、情報通.国内と情報通.出荷のデータの分布には差がない。
対立仮設は、情報通.国内と情報通.出荷のデータの分布は異なる。
検定の有意水準は、α=0.05 とします。
ks.test関数でK-S検定をします。
p-value = 0.1497 > 0.05 ですから、帰無仮説を棄却できません。つまりこの2つのデータの分布に差があるとはいえません。