今回は、都道府県別の生活習慣病による死者数のデータを分析してみたいと思います。
データは、政府統計の総合窓口、e-stat.go.jpから取得しました。
取得したデータは、
総人口(人), 生活習慣病による死亡者数(人), 可住地面積1km2当り人口密度(人), 1人当り県民所得(平成23年基準)(千円)です。
CSVファイルはこんな感じです。
read.csv関数でデータを読込みます。
read.csv関数でファイルを読込みます。skip = 8としているので、9行目からデータを読込みます。na.strings = c("***", "-", "X")としているので、***, -, X はNAになります。
stringsAsFactors = TRUEにしているので、文字列はファクターに変換しないで、文字列として取り込みます。
na.omit関数でNAのある行を削除します。
as.factor関数で、YearとPrefを文字列からファクターに変換します。
summary関数でデータのサマリを表示しました。
都道府県は10個ずつあるので、10年間のデータだとわかります。その他のデータも問題なく読み取れたようです。
まず、死亡者数を総人口で割って総人口あたりの死亡者数を計算してみます。
1万をかけたので、人口1万人当りの生活習慣病による死亡者数です。
最小は35.24人、最大は80.63人、平均値は58.60人、中央値は58.50人です。都道府県によって、最小と最大で倍以上の違いがあります。
hist関数でデータの分布を見てみます。
山型の分布ですね。
今回は以上です。