www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

鉱工業出荷内訳表の分析４ - ２つのデータの分布の違いを検定する。2標本のK-S検定(ks.test関数)

データ分析

今回は、鉱工業出荷内訳表のデータを使って、2つのデータの分布の違いを検定してみたいと思います。具体的には、前回、前々回でも取り上げた、平均値が最大のデータのはん用.国内と平均値が最小のデータの情報通.国内を比較します。もう一組は、標準偏差が最大のデータの情報通.輸出と標準偏差が最小の化学工.出荷を比較します。

まずは、csvファイルに保存してあるデータをread.csv関数でR言語に読込みます。

f:id:cross_hyou:20180811135729j:plain

4つのデータの平均値と標準偏差を一度に計算したいので、4つのデータだけのマトリックスを作成します。matrix関数です。

f:id:cross_hyou:20180811141709j:plain

matrix関数でデータのマトリックスを作成し、colnamesでそれぞれの列に名前を付けています。

summary関数でデータの要約を表示します。

f:id:cross_hyou:20180811141824j:plain

はん用.国内の平均値は111.1です。情報通.国内の平均値は66.0です。

apply関数とsd関数で、標準偏差を計算します。

f:id:cross_hyou:20180811141949j:plain

あ！、情報通.国内のほうが情報通.出荷より大きな標準偏差ですね。すみません、間違えてしまいました。このブログの趣旨はR言語の操作と簡単な統計分析の練習なので、とりあえずこのまま進めます。

分布を比較する2つのデータのヒストグラムを作成してみましょう。hist関数ですね。同じ画面に2つのヒストグラムを作図したいので、par(mfrow=c(2,1))というコマンドを加えます。

f:id:cross_hyou:20180811143152j:plain

f:id:cross_hyou:20180811143206j:plain

あきらかに分布が違いますね。col=で色を指定、main=でタイトルを指定、breaks=でヒストグラムの区間を指定しています。

同じように、情報通.出荷と化学工.出荷もヒストグラムにしてみます。

f:id:cross_hyou:20180811143730j:plain

f:id:cross_hyou:20180811143750j:plain

こちらもあきらかに分布の形状は違いますね。

このような、2つのデータの分布の違いを検定するには、2標本のK-S検定をします。

帰無仮説H0は、データの分布は、はん用.国内と情報通.国内で差がない。

対立仮設H1は、データの分布は、はん用.国内と情報通.国内で異なる。

検定の有意水準はα=0.05とします。

ks.test関数を実行します。

f:id:cross_hyou:20180811144506j:plain

p-value < 2.2e-16 < 0.05 なので、帰無仮説は棄却されます。はん用.国内と情報通.国内の分布の形状は異なります。

次は、情報通.出荷と化学工.出荷の分布の形状の検定です。

帰無仮説は、情報通.出荷と化学工.出荷のデータの分布は差がない。

対立仮設は、情報通.出荷と化学工.出荷のデータの分布は異なる。

検定の推移水準は、α=0.05 とします。

ks.test関数を実行します。

f:id:cross_hyou:20180811145056j:plain

p-value < 2.2e-16 < 0.05 ですから帰無仮説は棄却されます。情報通.出荷と化学工.出荷の分布は異なります。

せっかくですので、情報通.国内と情報通.出荷のペアで検定してみましょう。

まずは、ヒストグラムを並べてみましょう。

f:id:cross_hyou:20180811145517j:plain

f:id:cross_hyou:20180811145529j:plain

似ていますね。それでは、検定しましょう。

帰無仮説は、情報通.国内と情報通.出荷のデータの分布には差がない。

対立仮設は、情報通.国内と情報通.出荷のデータの分布は異なる。

検定の有意水準は、α=0.05 とします。

ks.test関数でK-S検定をします。

f:id:cross_hyou:20180811145940j:plain

p-value = 0.1497 > 0.05 ですから、帰無仮説を棄却できません。つまりこの2つのデータの分布に差があるとはいえません。