今回は都道府県別の国民医療費の分析をします。
政府統計の総合窓口(e-stat) www.e-stat.go.jp からデータを取得します。
47都道府県を選択します。
総人口(人)、総面積(ha)、県内総生産額(百万円)、国民医療費(億円)を選択してデータをダウンロードします。
こんな感じです。このファイルをR言語のread.csv関数で読み込んで分析します。
2008年、2011年、2014年、2015年の4年分のデータがあるようです。
Yearはファクタですが、余計なファクタ水準があるので、削除します。
全部の年度でデータの個数は47個ですから、全ての年度で47都道府県のデータがあります。
まずは、医療費の基本統計量を調べましょう。
summary関数をもう一度実行します。
最小値は1710憶円、最大値は4兆1433億円、平均値は8328憶円、中央値は5481憶円です。var関数で分散を、sd関数で標準偏差を算出しています。標準偏差は7785億円ぐらいです。
hist関数でヒストグラム、boxplot関数で箱ひげ図、sort関数で金額順に並び替えてからplot関数でグラフにしてみます。
abline関数で平均値の水準に赤い線を入れました。こうしてみると、医療費は、金額が大きい都道府県が全体の4分の1ぐらいあってそれらの都道府県が平均値を大きくしているようだとわかります。
医療費が平均値未満のデータフレーム、dflowと平均値以上のデータフレーム、dfhighを作成してみました。
この2つのデータフレームで同じようにグラフを作成してみます。
まず、3つのグラフを描く関数を自作しました。
それでは、平均値未満の都道府県の医療費のグラフです。
真ん中の箱ひげ図を見ると、外れ値が無くなっていることがわかります。自作関数もうまく動きました。
平均値以上の医療費のデータフレームでは、上方向の外れ値が3つあります。おそらく東京でしょうが、確認してみましょう。
やはり、東京が医療費が多いですね。
医療費が少ない都道府県も確認しておきましょう。
鳥取県が医療費が少ない県です。
一人当りの医療費で分析するほうがいいかもしれませんね。
一人当りの医療費をHitoという変数名で作成しました。単位は円です。
最小値は、22万6426円、最大値は44万3925円、中央値は31万6738円、平均値は32万0295円です。
グラフでデータの分布を見てみます。
箱ひげ図を見ると、上に一つだけ外れ値がありますが、ヒストグラムや金額順のグラフを見ると、平均値周辺にデータが集まっていることがわかります。
一人当り医療費の多い都道府県、少ない都道府県はどこかみてみましょう。
2015年度のデータでみると、埼玉県、千葉県、神奈川県が医療費が少ないです。
head(df2[order(df2$Year == "2015年度", ]$Hito), ])の仕組みを忘れないように書いておきます。
df2[df2$Year == "2015年度, ] で2015年度だけにします。
order(df2[df2$Year == "2015年度, ]$Hito) でHitoの小さい順の列を取得します。
df2[order(df2[df2$Year == "2015年度", ]$Hito), ]でHitoの小さい順に並びかえます。
head(df2[order(df2[df2$Year == "2015年度", ]$Hito), ])で始めの6行を表示します。
一人当り医療費の多い都道府県はどこでしょうか?
高知県が一番多いです。長崎県、鹿児島県、山口県、大分県、北海道と続きます。
今回は以上です。