Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の一般病院病床利用率のデータ分析1 - R言語にデータを取り込む。

f:id:cross_hyou:20210821104044j:plain

Photo by Federico Bottos on Unsplash

新型コロナウイルスの影響で病床利用率がひっ迫している、というニュースをよく見聞きしますので、普段の病床利用率はどんなものなのか調べてみようと思いました。

政府統計の総合窓口(www.e-stat.go.jp)からデータを取得しました。

f:id:cross_hyou:20210821104437p:plain

47都道府県を選択して、

f:id:cross_hyou:20210821104459p:plain

一般病院病床利用率(%)の他に人口密度、1人当たり県民所得(千円)、1人当たり国民医療費(千円)のデータも選択しました。

f:id:cross_hyou:20210821105319p:plain

こんなようなExcelファイルです。10行目に変数名を追加しました。

これをR言語に取り込みます。

まず、tidyverseパッケージを読み込んでおきます。

f:id:cross_hyou:20210821105733p:plain

read_csv()関数でCSVファイルを読み込みます。

f:id:cross_hyou:20210821110116p:plain

locale = locale(encoding = "UTF-8")でファイルのエンコードを指定、

skip = 9 ではじめの9行は無視、

na = c("***", "-", "X")で***と-とXはNAとして読み込むようにしています。

str()関数でデータフレームを確認します。

f:id:cross_hyou:20210821110432p:plain

year2とprefは文字化けしていて使えないので、削除します。

select()関数を使います。yearは100000を引いてから1000000で割って4桁の西暦にします。mutate()関数を使います。それと、na.omit()関数でNAの行を削除します。

f:id:cross_hyou:20210821113141p:plain

summary()関数でNAが削除されたか、yearが4桁の西暦になっているか、year2とprefが無くなっているかを確認します。

f:id:cross_hyou:20210821113352p:plain

大丈夫ですね。codeだけでは都道府県をパッと識別できないので、あらかじめ用意してある下に提示したCSVファイルを読み込みます。

f:id:cross_hyou:20210821113555p:plain

eastは東日本なら1、西日本なら0のダミー変数です。

big6は東京都、埼玉県、千葉県、神奈川県、愛知県、大阪府なら1、その他は0のダミー変数です。

noseaは海無し県なら1、海があれば0のダミー変数です。

read_csv()関数でこのファイルを読み込みます。

f:id:cross_hyou:20210821113936p:plain

inner_join()関数でdfとpref_codeを結合します。

f:id:cross_hyou:20210821114116p:plain

head()関数とtail()関数ではじめとさいごの数行のデータをみてみます。

f:id:cross_hyou:20210821114319p:plain

うまいぐあいに結合できていますね。

codeはもう必要ないので、削除して、変数の順番を少しかえましょう。

f:id:cross_hyou:20210821114726p:plain

summary()関数で変数の順番が変わっているか確認します。

f:id:cross_hyou:20210821114930p:plain

ここで変数を確認しておきましょう。

pref: 都道府県名

year: 調査年 2002年が一番古くて、2014年が一番新しいです。

riyou: 一般病院病床利用率(%) 平均値が81.25%です。

mitsudo: 加住面積1平方km当たり人口密度(人) 平均値が1370.8人です。

shotoku: 1人当たり県民所得(千円) 平均値が276万2千円です。

iryou: 1人当たり国民医療費(千円) 平均値が29万1900円です。

east: 東日本なら1、西日本なら0のダミー変数です。比率は51%

big6: 東京都、千葉県、埼玉県、神奈川県、愛知県、大阪府なら1、その他は0のダミー変数です。比率は13%

nosea: 海が無い県は1、ある県は0のダミー変数です。比率は17% 

これで分析の準備ができました。

今回は以上です。

 次回は

 

www.crosshyou.info

 です。