の続きです。
今回は1977年と2007年の苦情件数の分布を比較してみましょう。
R言語のggplot2パッケージのgeom_histogram関数とfacet_grid関数を使います。
1977年に比べると、2007年のほうが左に移動しています。
これは有意に違っているのでしょうか?検定してみましょう。
まずは、1977年だけ、2007年だけの人口100万人当りの苦情件数のベクトルを作ります。
var.test関数でvec1977(1977年の人口100万人当りの苦情件数)とvec2007(2007年の人口100万人当りの苦情件数)のvarianceが同じかどうかを検定します。
p-valueは0.1337と0.05よりも大きいですから、帰無仮説:2つのvarianceは同じを棄却できません。つまりvec1977とvec2007は同じ分散とみなしても問題ありません。
分散が同じなので、t.test関数で平均値が同じかどうかを検定します。
p-valueが0.5789なので、0.05よりも大きいので、vec1977とvec2007の平均値は有意な違いがあるとは言えません。 となりますがこれは間違った検定方法ですね。
というのは、1977年と2007年で同じ47都道府県で比較していますから、対応のある検定にしないといけないです。
このように、arrange(pref)を途中で入れて、都道府県で並び替えてからベクトルにしています。
これで、t.test関数をpaired = TRUEを加えて検定します。
p-valueが0.4149ですから、0.05よりも大きいです。つまり、vec1977とvec2007では平均値に違いがあるとは言えない、ということです。
今回は以上です