の続きです。
前回は、perGDP, perFire, perEdu, perPoliceと人口当たりの県内総生産額、消防職員人数、教育職員人数、警察職員人数を調べました。
今回は、R言語のboxplot.stats関数を使って外れ値の都道府県がどこなのか、確認したいと思います。
boxplot.stats関数の中の$outでわかります。
perGDP, perEdu, perPoliceは東京都が外れ値ですね。そしてperEduは秋田県、青森県、島根県、福岡県、北海道が外れ値です。東京都は人口が多いのは当然ですが、人口当たりにしても別格なのですね。
この6都県道を取り除いた変数を作りましょう。
はじめにこの6都県が各変数の中で何番目にあるのか、which関数で調べます。
37番目が東京都、秋田が24番目、27番目が青森、島根が36番目、43番目が福岡、北海道が46番目です。
ほんとうにそうか確認します。
はい、ほんとうでしたね。
それでは、外れ値を除外して新しい変数を作りたいと思います。
左の箱ひげ図が外れ値を削除したoutGDPで、右の箱ひげ図が元のperGDPです。
perFireも同じように処理をします。
左のoutFireに外れ値が一つあって外れ値が除外されていないように見えますが、これは箱ひげ図の箱の長さが短くなったのでしかたがないです。
perEduも外れ値を削除して、outEduという名前の変数を作ります。
outFireと同じ理由で、outEduには下のほうに2つ外れ値があるように見えます。
perPoliceの外れ値を削除しましょう。
これでoutGDP, outFire, outEdu, outPoliceという外れ値を除外した変数ができました。
今回は以上です。