www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の後期高齢者医療制度被保険者実態調査のデータの分析１ - R言語にデータを読み込む。

データ分析

f:id:cross_hyou:20210723075107j:plain

Photo by Manuel Sardo on Unsplash

今回は都道府県別の後期高齢者医療制度被保険者実態調査のデータを分析してみようと思います。データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。

f:id:cross_hyou:20210723075301p:plain

この中から、都道府県別１人当たり所得額・保険料調定額というデータをみてみます。

f:id:cross_hyou:20210723080658p:plain

このようなCSVファイルです。

これをR言語に読み込みます。

まず、tidyverseパッケージを読み込みます。

f:id:cross_hyou:20210723080948p:plain

read_csv関数でファイルを読み込みます。

f:id:cross_hyou:20210723081305p:plain

str()関数でデータフレーム、dfを確認します。

f:id:cross_hyou:20210723081420p:plain

pref_nameが文字化けしています。

f:id:cross_hyou:20210723081559p:plain

前に作成しておいた、上のようなCSVファイルをR言語に読み込みます。eastは東日本なら１、そうでないなら０というダミー変数です。big6は埼玉県、千葉県、東京都、神奈川県、愛知県、大阪府なら１、そうでないなら０というダミー変数です。

f:id:cross_hyou:20210723081923p:plain

head関数でpref_codeをみてみます。

f:id:cross_hyou:20210723082045p:plain

pref_codeのcodeという変数とdfのpref_codeという変数が共通のデータです。

なので、これを基準にして、inner_join()関数で２つのデータフレームを統合します。

f:id:cross_hyou:20210723082555p:plain

head()関数で確認します。

f:id:cross_hyou:20210723082707p:plain

うまく統合されました。

pref_codeとpref_nameはもう必要ないので削除し、変数の順番を並び替えます。select()関数をつかいましょう。

f:id:cross_hyou:20210723082927p:plain

head()関数で表示してみます。

f:id:cross_hyou:20210723083047p:plain

きれいなデータフレームになりました。

ここで変数を確認しておきます。

year: 調査年

pref: 都道府県名

shotoku: 所得金額(千円)

hoken: 保険金額(円)

hoke_shoto: 保険金額 / 所得金額 (%)

east: 東日本なら１、そうでないなら０

big6: 千葉県、埼玉県、神奈川県、東京都、愛知県、大阪府なら１、そうでないなら０

です。

summary()関数でデータフレームの概要をみましょう。

f:id:cross_hyou:20210723083645p:plain

yearを見ると、2016年、2017年、2018年の3年間のデータがあることがわかります。

所得は最小値が40万6千円、最大値が160万6千円、平均値が69万9千円です。最小と最大で4倍の格差があります。

保険料は最小値が3万7380円、最大値が9万8856円、平均値が6万1721円です。

保険料/所得金額は最小値が6.1%、最大値が11.1%、平均値は9.026%です。

eastを見ると、平均値が0.5106ですから、少し、東日本のほうが数が多いことがわかります。

big6を見ると、平均値は0.1277です。これは、6/47=0.1277ですね。

今回は以上です。

次回は

www.crosshyou.info

です。