Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のジニ係数データの分析1 - ジニ係数は0に近づくほど平等、1に近づくほど不平等。

今回は都道府県別のジニ係数データの分析をしようと思います。

政府統計の総合窓口、e-statからデータを取得しました。

www.e-stat.go.jp

 

ジニ係数データ

年間収入のジニ係数、貯蓄現在高のジニ係数があって、二人以上の世帯、二人以上の世帯のうち勤労者世帯の二種類なので、合計4種類のジニ係数です。

ジニ係数

こんな感じのCSVファイルです。

9行目は私が変数名として挿入しています。

このCSVファイルをR言語のread.csv関数で読み込みます。

read.csv関数でCSVファイルを読み込む

str関数でデータ構造を確認します。

str関数でデータの構造を確認

94の観測(observations)と6の変数(variables)が読み込まれた。データの型を47都道府県で94の観測ですから、2年分のデータですね。

tidyverseパッケージを読み込んでおきましょう。

tidyverseパッケージ

yearをfactor関数で文字列型からファクター型に変換します。

文字列型からファクター型に変換

summary関数でデータの基本統計値を確認します。

summary関数

2009年度と2014年度のデータがあります。4つのジニ係数の中で平均値が一番大きいのは、saving(二人以上の世帯の現在貯蓄現在高のジニ係数)ですね。

ところで、ジニ係数って何でしょうか?

https://www.e-stat.go.jp/koumoku/koumoku_teigi/L#L4602

ジニ係数の定義

ジニ係数は不平等度を表す係数で、0に近づくほど平等、1に近づくほど不平等ということだそうです。ということは、平均値が一番大きい、saving(二人以上の世帯の現在貯蓄現在高のジニ係数)が一番不平等ということですね。

これから一番不平等度が大きい都道府県はどこか?2009年度と2014年度ではどちらが不平等度が大きいか?などを調べていきます。