の続きです。
今回は取り込んだデータの分布形状を、ヒストグラムや箱ひげ図で確認しようと思います。
前段階の準備として、function関数で、ヒストグラム、箱ひげ図、インデックスプロットを一度に作成する関数を作ります。
hist関数でヒストグラム、boxplot関数で箱ひげ図、plot(sor(x))でインデックスプロットを作成します。
それでは、一つ一つの変数を確認しましょう。
まずは、Pop:学歴人口からです。
学歴人口は上方に外れ値が多くある形状です。ヒストグラムでいうと、右側の裾野が広がっている形状です。
最終学歴が小学校・中学校の分布形状です。上方に外れ値がありますが、最終学歴全体よりは多くない感じです。
最終学歴が高校の分布形状です。これも上方に外れ値があります。
最終学歴が短大・高専の分布形状です。これも上方に外れ値があります。ヒストグラムの右側の裾野が広い分布です。
最終学歴が大学・大学院の分布形状です。これも上方に外れ値があります。
つまり、人口に関するデータはすべて上方に外れ値があることがわかりました。
都道府県別の人口はもともと大きく違うので当たり前ですね。
年間平均収入の分布形状です。おおむね左右対称の分布形状ですが、下方にポツンと一つ外れ値があります。
一つだけ収入の少ない都道府県が存在するということですね。
下位20%の平均収入の分布形状です。左側の裾野が広い分布形状です。下方に一つ外れ値があります。
上位20%の平均収入の分布形状です。左右対称に近いです。しかし、これも下方に外れ値があります。
今回は以上です。