今回から都道府県別の「医療費動向」調査のデータを分析しようと思います。
政府統計の総合窓口(www.e-stat.go.jp)のサイトに新着データとして掲載されていました。
データベースのほうをクリックしました。
月次のほうをクリックしました。
都道府県別の医療費総額の伸び率(対前年同期比)のデータを取得します。DBのほうをクリックします。
こんな感じです。ファイルをダウンロードします。
こういうCSVファイルです。
青く囲った部分は私が挿入した変数名です。
それではR言語のread.csv関数で読み込みましょう。
あとで使うので、tidyverseパッケージを読み込んでおきます。
skip = 10 で11行目から読み込むように指示しています。
na.strings = c("***","-")で***と-はNAとして処理するように指示しています。
encoding = "UTF-8"でencodingをUTF-8と指示しています。
str関数でうまく読み込めたか確認します。
ignoreはいらないので削除するのと、yearを文字列型からファクター型に変換しましょう。
またstr関数で確認します。
Factorになっています。
もう一つ、関東とか近畿などの地域区分のファイルも読み込みます。
1番目の変数名がおかしいので、prefに訂正します。
inner_join関数でdfとchiikiを結合します。
うまく結合できました。
region, eastwest, japanpacificをファクター型に変換しましょう。
mutate関数とas.factor関数を使います。
str関数で確認します。
ファクター型に変換されています。
これで、分析のためのデータフレーム、dfが完成しました。
今回は以上です。