Photo by Federico Bottos on Unsplash
新型コロナウイルスの影響で病床利用率がひっ迫している、というニュースをよく見聞きしますので、普段の病床利用率はどんなものなのか調べてみようと思いました。
政府統計の総合窓口(www.e-stat.go.jp)からデータを取得しました。
47都道府県を選択して、
一般病院病床利用率(%)の他に人口密度、1人当たり県民所得(千円)、1人当たり国民医療費(千円)のデータも選択しました。
こんなようなExcelファイルです。10行目に変数名を追加しました。
これをR言語に取り込みます。
まず、tidyverseパッケージを読み込んでおきます。
read_csv()関数でCSVファイルを読み込みます。
locale = locale(encoding = "UTF-8")でファイルのエンコードを指定、
skip = 9 ではじめの9行は無視、
na = c("***", "-", "X")で***と-とXはNAとして読み込むようにしています。
str()関数でデータフレームを確認します。
year2とprefは文字化けしていて使えないので、削除します。
select()関数を使います。yearは100000を引いてから1000000で割って4桁の西暦にします。mutate()関数を使います。それと、na.omit()関数でNAの行を削除します。
summary()関数でNAが削除されたか、yearが4桁の西暦になっているか、year2とprefが無くなっているかを確認します。
大丈夫ですね。codeだけでは都道府県をパッと識別できないので、あらかじめ用意してある下に提示したCSVファイルを読み込みます。
eastは東日本なら1、西日本なら0のダミー変数です。
big6は東京都、埼玉県、千葉県、神奈川県、愛知県、大阪府なら1、その他は0のダミー変数です。
noseaは海無し県なら1、海があれば0のダミー変数です。
read_csv()関数でこのファイルを読み込みます。
inner_join()関数でdfとpref_codeを結合します。
head()関数とtail()関数ではじめとさいごの数行のデータをみてみます。
うまいぐあいに結合できていますね。
codeはもう必要ないので、削除して、変数の順番を少しかえましょう。
summary()関数で変数の順番が変わっているか確認します。
ここで変数を確認しておきましょう。
pref: 都道府県名
year: 調査年 2002年が一番古くて、2014年が一番新しいです。
riyou: 一般病院病床利用率(%) 平均値が81.25%です。
mitsudo: 加住面積1平方km当たり人口密度(人) 平均値が1370.8人です。
shotoku: 1人当たり県民所得(千円) 平均値が276万2千円です。
iryou: 1人当たり国民医療費(千円) 平均値が29万1900円です。
east: 東日本なら1、西日本なら0のダミー変数です。比率は51%
big6: 東京都、千葉県、埼玉県、神奈川県、愛知県、大阪府なら1、その他は0のダミー変数です。比率は13%
nosea: 海が無い県は1、ある県は0のダミー変数です。比率は17%
これで分析の準備ができました。
今回は以上です。
次回は
です。