の続きです。
今回は年別で人口1万人当りの死亡者数を見てみます。
plot関数を使います。
あら、1975年度とか1983年度とかデータの無い年度も表示されてしまってます。df1$Yearを見てみましょう。
データが無い年度もファクタのレベルとして残っていますね。
整理しましょう。
まず、as.character関数で文字列型に変換し、それをas.factor型でファクター型に変換しました。これで、1975年度などのデータの無い年度はなくなりました。
もう一度plot関数でグラフを描いてみます。
年度が進むほど、死亡者数は多くなっているように見えます。
tapply関数で年度別の平均値を計算してみます。
2006年度が一番少なくて、55.25人です。2014年度が一番多くて60.44人です。
だいたい5人ぐらいの違いがありますね。2006年度と2014年度で違いがあるかどうか調べてみます。
まず、var.test関数で分散が同じかどうかを検定します。
p値は0.314と0.05よりも大きいです。分散は同じとみなしてよいです。
分散は同じとみなしてよいので、t.test関数で平均値が同じかどうかを検定します。
p値が0.0030408と0.05よりも小さいので2006年度の平均値55.25人と2014年度の平均値60.44人とは有意な違いがあるとわかりました。
2006年度で一番、1万人当り死亡者数の多い都道府県、少ない都道府県はどこでしょうか?tapply関数で2006年度の都道府県別の総人口1万人当りの死亡者数の平均値のテーブルを作成して、sort関数で並び替えます。平均値といっても各都道府県の2006年度のデータは一つしかありませんから、2006年度の値、ということですね。
沖縄県が一番少なくて35.23人です。秋田県が一番多くて70.38人です。
同じように、2014年度もどの都道府県が多くて、どの都道府県が少ないかみてみましょう。
2014年度も沖縄県が一番少なくて40.11人です。多いのは2006年度と同じで秋田県でした。80.63人です。秋田県は10人も増えていますね。
今回は以上です。