今回は都道府県別の学歴と収入の関係を調べようと思います。
データは、政府統計の総合窓口、www.e-stat.go.jp から取得しました。
47都道府県を選択します。
学歴データは上のように選択しました。
このように表示されます。これをダウンロードすると、
このようなCSVファイルで出力されます。9行目に変数名を追加しました。
収入データは上の画像のように、3つ選択しました。
こういうようになります。これをダウンロードすると、
このようなCSVファイルがダウンロードされます。9行目に変数名を追加しました。
この二つのCSVファイルをR言語に読み込みます。
はじめに、変数名の説明を書いておきます。
> # 学歴と収入のデータの変数名
> # Year : 年度
> # Pref : 都道府県名
> # Pop : 学歴人口
> # Low : 最終学歴が小学校・中学校
> # Middle : 最終学歴が高校
> # Advance : 最終学歴が短大・高専
> # High_Advance: 最終学歴が大学・大学院
> # Avereage : 年間平均収入
> # Low_Income : 下位20%の平均収入
> # High_income : 上位20%の平均収入
です。
R言語のread.csv関数でCSVファイルのデータをR言語に読み込みます。
skip = 8 としているのは、データが9行目からはじまっているからです。
str関数でデータが読み込まれた確認します。
問題なく読み込んだようです。
学歴のデータは2020年度、収入のデータは2004年度です。ほんとうは同じ年度がいいのですが、しょうがないです。
このgakurekiとshuunyuuという2つのデータフレームをPrefという変数を基準にして統合します。
merge関数で統合できます。
by = "Pref" としているので、Prefを基準にして統合しています。
str関数で統合できたか確認します。
両方のデータフレームに、Yearがあったので、Year.xとYear.yとなっています。この2つの変数はいらないので、削除します。
もう一度、df関数で削除できたか確認します。
year.xとyear.yが削除されていることがわかりました。
これで分析で使用するデータフレーム、dfができました。
summary関数で基本的な統計値を確認しておきます。
平均収入は、675万円、下位20%の平均は285万円、上位20%の平均は1162万円です。
上位の収入は下位の収入の4倍もあります。
さらに、下位20%で最低の都道府県は151万円、上位20%で最高の都道府県は1471万円と10倍近い開きがあります。
今回は以上です。