crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の「医療費の動向」調査のデータ分析1 - R言語にデータを読み込む。

今回から都道府県別の「医療費動向」調査のデータを分析しようと思います。

政府統計の総合窓口(www.e-stat.go.jp)のサイトに新着データとして掲載されていました。

f:id:cross_hyou:20201112201745p:plain

f:id:cross_hyou:20201112201834p:plain

データベースのほうをクリックしました。

f:id:cross_hyou:20201112201937p:plain

月次のほうをクリックしました。

f:id:cross_hyou:20201112202100p:plain

都道府県別の医療費総額の伸び率(対前年同期比)のデータを取得します。DBのほうをクリックします。

f:id:cross_hyou:20201112202218p:plain

こんな感じです。ファイルをダウンロードします。

f:id:cross_hyou:20201112202343p:plain

こういうCSVファイルです。

青く囲った部分は私が挿入した変数名です。

それではR言語のread.csv関数で読み込みましょう。

f:id:cross_hyou:20201112203404p:plain

あとで使うので、tidyverseパッケージを読み込んでおきます。

f:id:cross_hyou:20201112203438p:plain

skip = 10 で11行目から読み込むように指示しています。

na.strings = c("***","-")で***と-はNAとして処理するように指示しています。

encoding = "UTF-8"でencodingをUTF-8と指示しています。

str関数でうまく読み込めたか確認します。

f:id:cross_hyou:20201112203625p:plain

ignoreはいらないので削除するのと、yearを文字列型からファクター型に変換しましょう。

f:id:cross_hyou:20201112204021p:plain

またstr関数で確認します。

f:id:cross_hyou:20201112204219p:plain

Factorになっています。

もう一つ、関東とか近畿などの地域区分のファイルも読み込みます。

f:id:cross_hyou:20201112204511p:plain

1番目の変数名がおかしいので、prefに訂正します。

f:id:cross_hyou:20201112204649p:plain

inner_join関数でdfとchiikiを結合します。

f:id:cross_hyou:20201112204911p:plain

うまく結合できました。

region, eastwest, japanpacificをファクター型に変換しましょう。

mutate関数とas.factor関数を使います。

f:id:cross_hyou:20201112205208p:plain

str関数で確認します。

f:id:cross_hyou:20201112205347p:plain

ファクター型に変換されています。

これで、分析のためのデータフレーム、dfが完成しました。

今回は以上です。