www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の学歴と収入のデータ分析1 - read.csv関数でR言語にデータを取り込み、merge関数でデータフレームを統合する。

今回は都道府県別の学歴と収入の関係を調べようと思います。

データは、政府統計の総合窓口、www.e-stat.go.jp から取得しました。

都道府県を選択

47都道府県を選択します。

学歴データを選択

学歴データは上のように選択しました。

データの表示画面

このように表示されます。これをダウンロードすると、

CSVファイル

このようなCSVファイルで出力されます。9行目に変数名を追加しました。

 

収入データ

収入データは上の画像のように、3つ選択しました。

データの表示

こういうようになります。これをダウンロードすると、

CSVファイル

このようなCSVファイルがダウンロードされます。9行目に変数名を追加しました。

この二つのCSVファイルをR言語に読み込みます。

はじめに、変数名の説明を書いておきます。

> # 学歴と収入のデータの変数名
> # Year : 年度
> # Pref : 都道府県名
> # Pop : 学歴人口
> # Low : 最終学歴が小学校・中学校
> # Middle : 最終学歴が高校
> # Advance : 最終学歴が短大・高専
> # High_Advance: 最終学歴が大学・大学院
> # Avereage : 年間平均収入
> # Low_Income : 下位20%の平均収入
> # High_income : 上位20%の平均収入

です。

R言語のread.csv関数でCSVファイルのデータをR言語に読み込みます。

read.csv関数でCSVファイルを読み込む

skip = 8 としているのは、データが9行目からはじまっているからです。

str関数でデータが読み込まれた確認します。

str関数でデータの構造を確認

問題なく読み込んだようです。

学歴のデータは2020年度、収入のデータは2004年度です。ほんとうは同じ年度がいいのですが、しょうがないです。

このgakurekiとshuunyuuという2つのデータフレームをPrefという変数を基準にして統合します。

merge関数で統合できます。

merge関数で2つのデータフレームを統合

by = "Pref" としているので、Prefを基準にして統合しています。

str関数で統合できたか確認します。

str関数でデータの構造を確認

両方のデータフレームに、Yearがあったので、Year.xとYear.yとなっています。この2つの変数はいらないので、削除します。

year.xとyear.yの削除

もう一度、df関数で削除できたか確認します。

str関数でデータの構造を確認

year.xとyear.yが削除されていることがわかりました。

これで分析で使用するデータフレーム、dfができました。

summary関数で基本的な統計値を確認しておきます。

summary関数

平均収入は、675万円、下位20%の平均は285万円、上位20%の平均は1162万円です。

上位の収入は下位の収入の4倍もあります。

さらに、下位20%で最低の都道府県は151万円、上位20%で最高の都道府県は1471万円と10倍近い開きがあります。

今回は以上です。