の続きです。
今回は分散分析(ANOVA)をしてみたいと思います。
koutuu(人口10万人当りの交通事故件数)やkeihou(人口千人当りの刑法犯認知件数)が地域によって違いがあるのかどうかを調べます。
まず、データフレームを絞りこんで、2005年のデータだけのデータフレームを作りました。
summary関数でデータのサマリをみてみます。
東京都が24都市で一番多いですね。西日本と東日本は同じくらいの数です。
まずは、eastwest(東日本と西日本)別のkeihouの平均値です。
西日本が854件、東日本が827件です。
この平均値に有意な違いはあるのでしょうか?
lm関数とanova関数を使ってANOVAをします。
p値は0.7559と0.05よりも大きいので、東日本と西日本とで有意な違いはありません。。
こんどは、japanpacific(日本海側、太平洋側、その他)とkoutuuです。
太平洋側が863件、その他が821件、日本海側が774件です。
ANOVAをします。
p値が0.785ですのでこちらも有意な違いはありません。
region(地域)とkoutuuはどうでしょうか?
四国が1077件で一番多く、北海道東北が697件で一番少ないです。
この地域ごとの違いは有意な違いでしょうか?
p値は0.7836と0.05よりも大きいので、有意な違いがあるとは言えません。
eastwest別のkeihouをみてみます。
東日本が22.5件、西日本は19.5件です。この違いは有意な違いでしょうか?
p値は0.2605です。有意な違いではないですね。
東日本と西日本のようにカテゴリが2つしかない場合はt検定でも平均値に有意な違いがあるかどうかを検定できます。
やってみましょう。
まず、それぞれの変数を作ります。
mean関数で平均値を出しています。前に出した結果と一致しています。
あとは、t.test関数でt検定です。
p値は0.2516と0.05よりも大きいです。t検定でも有意な違いがあるとは言えません。
japanpacificとkeihouを見てみます。
太平洋側が23.1件、その他が19.6件、日本海側が14.1件です。この違いは有意な違いでしょうか?ANOVA分析をします。
p値は0.06927と0.05よりも大きいので有意な違いがあるとは言えません。
regionごとのkeihouの平均値を見てみます。
関東が25.2件で一番多く、北海道が13.8件で一番少ないです。
ANOVA分析をします。
p値は0.06055と0.05よりも大きいので有意な違いがあるとは言えません。
こうしてみると、交通事故、犯罪件数ともに地域によって有意な違いがあるとは言えない結果になりました。
今回は以上です。