都道府県別の公害苦情件数データの分析４ - 人口100万人当りの苦情件数は1977年と2007年で違いがあるとは言えない。

の続きです。

今回は1977年と2007年の苦情件数の分布を比較してみましょう。

R言語のggplot2パッケージのgeom_histogram関数とfacet_grid関数を使います。

geom_histogram関数でヒストグラム

ヒストグラム

1977年に比べると、2007年のほうが左に移動しています。

これは有意に違っているのでしょうか？検定してみましょう。

まずは、1977年だけ、2007年だけの人口100万人当りの苦情件数のベクトルを作ります。

as.matrix関数to

var.test関数でvec1977(1977年の人口100万人当りの苦情件数)とvec2007(2007年の人口100万人当りの苦情件数)のvarianceが同じかどうかを検定します。

var.test関数

p-valueは0.1337と0.05よりも大きいですから、帰無仮説:２つのvarianceは同じを棄却できません。つまりvec1977とvec2007は同じ分散とみなしても問題ありません。

分散が同じなので、t.test関数で平均値が同じかどうかを検定します。

t.test関数

p-valueが0.5789なので、0.05よりも大きいので、vec1977とvec2007の平均値は有意な違いがあるとは言えません。　となりますがこれは間違った検定方法ですね。

というのは、1977年と2007年で同じ47都道府県で比較していますから、対応のある検定にしないといけないです。

arrange関数

このように、arrange(pref)を途中で入れて、都道府県で並び替えてからベクトルにしています。

これで、t.test関数をpaired = TRUEを加えて検定します。

t.test関数(対応あり)

p-valueが0.4149ですから、0.05よりも大きいです。つまり、vec1977とvec2007では平均値に違いがあるとは言えない、ということです。

今回は以上です