都道府県別の生活習慣病による死亡者数のデータ分析２ - R言語のplot関数で年別の人口1万人当りの死亡者数を見る。

www.crosshyou.info

の続きです。

今回は年別で人口１万人当りの死亡者数を見てみます。

plot関数を使います。

f:id:cross_hyou:20200314104554p:plain

f:id:cross_hyou:20200314104611p:plain

あら、1975年度とか1983年度とかデータの無い年度も表示されてしまってます。df1$Yearを見てみましょう。

f:id:cross_hyou:20200314104821p:plain

データが無い年度もファクタのレベルとして残っていますね。

整理しましょう。

f:id:cross_hyou:20200314105041p:plain

まず、as.character関数で文字列型に変換し、それをas.factor型でファクター型に変換しました。これで、1975年度などのデータの無い年度はなくなりました。

もう一度plot関数でグラフを描いてみます。

f:id:cross_hyou:20200314105445p:plain

f:id:cross_hyou:20200314105457p:plain

年度が進むほど、死亡者数は多くなっているように見えます。

tapply関数で年度別の平均値を計算してみます。

f:id:cross_hyou:20200314105909p:plain

2006年度が一番少なくて、55.25人です。2014年度が一番多くて60.44人です。

だいたい5人ぐらいの違いがありますね。2006年度と2014年度で違いがあるかどうか調べてみます。

まず、var.test関数で分散が同じかどうかを検定します。

f:id:cross_hyou:20200314110624p:plain

p値は0.314と0.05よりも大きいです。分散は同じとみなしてよいです。

分散は同じとみなしてよいので、t.test関数で平均値が同じかどうかを検定します。

f:id:cross_hyou:20200314110944p:plain

p値が0.0030408と0.05よりも小さいので2006年度の平均値55.25人と2014年度の平均値60.44人とは有意な違いがあるとわかりました。

2006年度で一番、1万人当り死亡者数の多い都道府県、少ない都道府県はどこでしょうか？tapply関数で2006年度の都道府県別の総人口1万人当りの死亡者数の平均値のテーブルを作成して、sort関数で並び替えます。平均値といっても各都道府県の2006年度のデータは一つしかありませんから、2006年度の値、ということですね。

f:id:cross_hyou:20200314111434p:plain