Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の生活習慣病による死亡者数のデータ分析2 - R言語のplot関数で年別の人口1万人当りの死亡者数を見る。

 

www.crosshyou.info

 の続きです。

今回は年別で人口1万人当りの死亡者数を見てみます。

plot関数を使います。

f:id:cross_hyou:20200314104554p:plain

f:id:cross_hyou:20200314104611p:plain

あら、1975年度とか1983年度とかデータの無い年度も表示されてしまってます。df1$Yearを見てみましょう。

f:id:cross_hyou:20200314104821p:plain

データが無い年度もファクタのレベルとして残っていますね。

整理しましょう。

f:id:cross_hyou:20200314105041p:plain

まず、as.character関数で文字列型に変換し、それをas.factor型でファクター型に変換しました。これで、1975年度などのデータの無い年度はなくなりました。

もう一度plot関数でグラフを描いてみます。

f:id:cross_hyou:20200314105445p:plain

f:id:cross_hyou:20200314105457p:plain

年度が進むほど、死亡者数は多くなっているように見えます。

tapply関数で年度別の平均値を計算してみます。

f:id:cross_hyou:20200314105909p:plain

2006年度が一番少なくて、55.25人です。2014年度が一番多くて60.44人です。

だいたい5人ぐらいの違いがありますね。2006年度と2014年度で違いがあるかどうか調べてみます。

まず、var.test関数で分散が同じかどうかを検定します。

f:id:cross_hyou:20200314110624p:plain

p値は0.314と0.05よりも大きいです。分散は同じとみなしてよいです。

分散は同じとみなしてよいので、t.test関数で平均値が同じかどうかを検定します。

f:id:cross_hyou:20200314110944p:plain

p値が0.0030408と0.05よりも小さいので2006年度の平均値55.25人と2014年度の平均値60.44人とは有意な違いがあるとわかりました。

2006年度で一番、1万人当り死亡者数の多い都道府県、少ない都道府県はどこでしょうか?tapply関数で2006年度の都道府県別の総人口1万人当りの死亡者数の平均値のテーブルを作成して、sort関数で並び替えます。平均値といっても各都道府県の2006年度のデータは一つしかありませんから、2006年度の値、ということですね。

f:id:cross_hyou:20200314111434p:plain

沖縄県が一番少なくて35.23人です。秋田県が一番多くて70.38人です。

同じように、2014年度もどの都道府県が多くて、どの都道府県が少ないかみてみましょう。

f:id:cross_hyou:20200314112240p:plain

2014年度も沖縄県が一番少なくて40.11人です。多いのは2006年度と同じで秋田県でした。80.63人です。秋田県は10人も増えていますね。

今回は以上です。