Photo by Manuel Sardo on Unsplash
今回は都道府県別の後期高齢者医療制度被保険者実態調査のデータを分析してみようと思います。データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。
この中から、都道府県別1人当たり所得額・保険料調定額というデータをみてみます。
このようなCSVファイルです。
これをR言語に読み込みます。
まず、tidyverseパッケージを読み込みます。
read_csv関数でファイルを読み込みます。
str()関数でデータフレーム、dfを確認します。
pref_nameが文字化けしています。
前に作成しておいた、上のようなCSVファイルをR言語に読み込みます。eastは東日本なら1、そうでないなら0というダミー変数です。big6は埼玉県、千葉県、東京都、神奈川県、愛知県、大阪府なら1、そうでないなら0というダミー変数です。
head関数でpref_codeをみてみます。
pref_codeのcodeという変数とdfのpref_codeという変数が共通のデータです。
なので、これを基準にして、inner_join()関数で2つのデータフレームを統合します。
head()関数で確認します。
うまく統合されました。
pref_codeとpref_nameはもう必要ないので削除し、変数の順番を並び替えます。select()関数をつかいましょう。
head()関数で表示してみます。
きれいなデータフレームになりました。
ここで変数を確認しておきます。
year: 調査年
pref: 都道府県名
shotoku: 所得金額(千円)
hoken: 保険金額(円)
hoke_shoto: 保険金額 / 所得金額 (%)
east: 東日本なら1、そうでないなら0
big6: 千葉県、埼玉県、神奈川県、東京都、愛知県、大阪府なら1、そうでないなら0
です。
summary()関数でデータフレームの概要をみましょう。
yearを見ると、2016年、2017年、2018年の3年間のデータがあることがわかります。
所得は最小値が40万6千円、最大値が160万6千円、平均値が69万9千円です。最小と最大で4倍の格差があります。
保険料は最小値が3万7380円、最大値が9万8856円、平均値が6万1721円です。
保険料/所得金額は最小値が6.1%、最大値が11.1%、平均値は9.026%です。
eastを見ると、平均値が0.5106ですから、少し、東日本のほうが数が多いことがわかります。
big6を見ると、平均値は0.1277です。これは、6/47=0.1277ですね。
今回は以上です。
次回は
です。