Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の学歴と収入のデータ分析２ - 取り込んだデータの分布形状をヒストグラムや箱ひげ図で確認する。

データ分析

www.crosshyou.info

の続きです。

今回は取り込んだデータの分布形状を、ヒストグラムや箱ひげ図で確認しようと思います。

前段階の準備として、function関数で、ヒストグラム、箱ひげ図、インデックスプロットを一度に作成する関数を作ります。

function関数でカスタム関数の作成

hist関数でヒストグラム、boxplot関数で箱ひげ図、plot(sor(x))でインデックスプロットを作成します。

それでは、一つ一つの変数を確認しましょう。

まずは、Pop:学歴人口からです。

grafu関数

学歴人口の分布形状

学歴人口は上方に外れ値が多くある形状です。ヒストグラムでいうと、右側の裾野が広がっている形状です。

最終学歴が小学校・中学校の分布形状

最終学歴が小学校・中学校の分布形状

最終学歴が小学校・中学校の分布形状です。上方に外れ値がありますが、最終学歴全体よりは多くない感じです。

最終学歴が高校の分布形状

最終学歴が高校の分布形状

最終学歴が高校の分布形状です。これも上方に外れ値があります。

最終学歴が短大・高専の分布形状

最終学歴が短大・高専の分布形状

最終学歴が短大・高専の分布形状です。これも上方に外れ値があります。ヒストグラムの右側の裾野が広い分布です。

最終学歴が大学・大学院の分布形状

最終学歴が大学・大学院の分布形状

最終学歴が大学・大学院の分布形状です。これも上方に外れ値があります。

つまり、人口に関するデータはすべて上方に外れ値があることがわかりました。

都道府県別の人口はもともと大きく違うので当たり前ですね。

年間平均収入の分布形状

年間平均収入の分布形状

年間平均収入の分布形状です。おおむね左右対称の分布形状ですが、下方にポツンと一つ外れ値があります。

一つだけ収入の少ない都道府県が存在するということですね。

平均収入が下位20%の分布形状

下位20%の平均収入の分布形状

下位20%の平均収入の分布形状です。左側の裾野が広い分布形状です。下方に一つ外れ値があります。

上位20%の平均収入の分布形状

上位20%の平均収入の分布形状

上位20%の平均収入の分布形状です。左右対称に近いです。しかし、これも下方に外れ値があります。

今回は以上です。