今回は都道府県別のジニ係数データの分析をしようと思います。
政府統計の総合窓口、e-statからデータを取得しました。
www.e-stat.go.jp
年間収入のジニ係数、貯蓄現在高のジニ係数があって、二人以上の世帯、二人以上の世帯のうち勤労者世帯の二種類なので、合計4種類のジニ係数です。
こんな感じのCSVファイルです。
9行目は私が変数名として挿入しています。
このCSVファイルをR言語のread.csv関数で読み込みます。
str関数でデータ構造を確認します。
94の観測(observations)と6の変数(variables)が読み込まれた。データの型を47都道府県で94の観測ですから、2年分のデータですね。
tidyverseパッケージを読み込んでおきましょう。
yearをfactor関数で文字列型からファクター型に変換します。
summary関数でデータの基本統計値を確認します。
2009年度と2014年度のデータがあります。4つのジニ係数の中で平均値が一番大きいのは、saving(二人以上の世帯の現在貯蓄現在高のジニ係数)ですね。
ところで、ジニ係数って何でしょうか?
https://www.e-stat.go.jp/koumoku/koumoku_teigi/L#L4602
ジニ係数は不平等度を表す係数で、0に近づくほど平等、1に近づくほど不平等ということだそうです。ということは、平均値が一番大きい、saving(二人以上の世帯の現在貯蓄現在高のジニ係数)が一番不平等ということですね。
これから一番不平等度が大きい都道府県はどこか?2009年度と2014年度ではどちらが不平等度が大きいか?などを調べていきます。