crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別・男女別の平均余命のデータの分析1 - 基本統計量など。青森県の平均余命は短い。男性は長野県、女性は沖縄県の平均余命が長い。

今回は都道府県別・男女別の平均余命のデータを分析します。

www.e-stat.go.jp 政府統計の総合窓口のサイトからデータを取得します。

f:id:cross_hyou:20190801193105j:plain

47都道府県を選び、

f:id:cross_hyou:20190801193124j:plain

総人口、総面積、平均余命(0歳) 男女を選択します。

f:id:cross_hyou:20190801193207j:plain

Excelにデータをダウンロードすると、こんな感じです。9行目を挿入して、変数名を加えました。

Yearは年度、Popは総人口(人)、Prefは総面積(ha)、YomeiMは男性の平均余命(歳)、YomeiFが女性の平均余命です。

このデータをR言語で分析します。

f:id:cross_hyou:20190801193437j:plain

read.csv関数でデータを読込みます。skip = 8で9行目から読込み、na.strings = c(~~~)のところで***やXなどをNAにして読み込んでいます。
na.omit関数でNAのある行を削除し、summary関数で基本的なデータ要約を表示しました。

男性の平均余命は76.53歳、女性は82.90歳です。女性のほうが平均余命が長いです。

f:id:cross_hyou:20190801194034j:plain

yearから数値型変数のYearを作成しました。substr関数でyearのはじめの4文字、つまり1975などを取り出し、as.numeric関数で数値型に変換しています。
summary関数で数値型になっていることがわかります。
as.character関数で文字列型にしてからtabale関数で個数を数えています。

1975年から2015年まで5年ごとにあって、47都道府県もれなくデータがありますね。

f:id:cross_hyou:20190801194520j:plain

df1$YomeiFなどと、いちいちdf1$を付けるのが面倒なので、それぞれ独立したベクトルを作成しました。

まずは、年別の平均余命の平均値を見てみます。

f:id:cross_hyou:20190801194818j:plain

男性は1975年は71.4歳、2015年は80.7歳です。40年間で9歳ぐらい伸びました。

女性は1975年は76.9歳、2015年は87.0歳です。40年間で10歳ぐらい伸びました。

都道府県別の平均値を出しましょう。

f:id:cross_hyou:20190801195934j:plain

tapply関数で都道府県別の平均余命の平均値を算出しています。それをas.data.frame関数で一時的にobjectという名前で保存し、PrefM、PrefFという名前のベクトルに値を格納します。names関数とrownames関数で都道府県の名前を作成したベクトルに付与し、sort関数で小さい順に表示しています。最後にrm関数でobjectという変数を削除しています。

男性の平均余命の一番短い都道府県は、青森県で74.5歳です。一番長い都道府県は長野県で77.7歳です。

女性の平均余命の一番短い都道府県は、青森県で82.1歳です。一番長い都道府県は沖縄県で84.6歳です。

男性の平均余命 / 女性の平均余命 という比率も計算してみましょう。

f:id:cross_hyou:20190801200934j:plain

青森県が一番低く0.91ぐらい、岐阜県が一番大きく0.93です。まあ、青森県と岐阜県で0.02ぐらいしか差がないので、重要ではないかもしれないです。

今回は以上です。