www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の通院者率のデータの分析１ - R言語にデータを読み込む。

データ分析

f:id:cross_hyou:20210920081959j:plain

Photo by Ana Markovych on Unsplash

今回は都道府県別の通院者率のデータを分析してみようと思います。

データは、政府統計の総合窓口(e-stat)から取得しました。www.e-stat.go.jp

f:id:cross_hyou:20210920082143p:plain

まず、47都道府県を選択しました。

f:id:cross_hyou:20210920082213p:plain

続いて、65歳以上人口割合、就業者率、社会体育施設数、通院者率の4項目をデータとして選択しました。

f:id:cross_hyou:20210920082309p:plain

ダウンロードしたCSVファイルはこのようなものです。10行目に変数名を作って挿入しています。

このCSVファイルのデータをR言語に読み込みます。

まず。tidyverseパッケージの読み込みをしておきます。

f:id:cross_hyou:20210920082624p:plain

read_csv関数で読み込みます。

f:id:cross_hyou:20210920082919p:plain

head関数でどんな感じで読み込まれたか見てみましょう。

f:id:cross_hyou:20210920083132p:plain

あ、今回は文字化けせずに上手く読み込んでいますね。

変数名を説明します。

ycod: year code - 調査年のコード

year: year - 調査年

pcod: prefecture code - 都道府県コード

pref: prefecture - 都道府県名

oldr: old ratio - 65歳以上の人の人口割合(%)

worr: work ratio - 就業者の人口割合(%)

gymn: gym number - 人口100万人当たりの社会体育施設数(数)

hosp: hospital - 人口1000人当たりの通院者率(人)

です。

ycodを100000を引いて1000000で割って4桁の西暦の数値に直しましょう。

yearとprefを文字列型からファクター型に変更しましょう。

f:id:cross_hyou:20210920084724p:plain

summary関数でdf_rawを見てみます。

f:id:cross_hyou:20210920084940p:plain

あらら。。。

yearとprefが文字化けしてしまいました。。

仕方ないですね。yearとprefは削除してしまいます。

f:id:cross_hyou:20210920085149p:plain

pcodが1000は北海道で、47000は沖縄県なのですが、このままではわかりにくいので、あらかじめ用意してある、

f:id:cross_hyou:20210920090038p:plain

このCSVファイルを読み込んで、このデータと結合します。

f:id:cross_hyou:20210920090255p:plain

inner_join関数で結合します。dfのpcodとpref_codeのcodeが同じデータです。

f:id:cross_hyou:20210920090534p:plain

うまく結合できました。pcodはもう必要ないので削除して、変数の並び順を少し直します。

f:id:cross_hyou:20210920090806p:plain

できました。新しく追加された変数を説明します。

east: 東日本なら１、西日本なら０のダミー変数

big6: 東京都、千葉県、神奈川県、埼玉県、愛知県、大阪府なら１、その他は０のダミー変数

nose: 海が無い県は１、ある県は０のダミー変数

今回は以上です。

次回は

www.crosshyou.info

です。