www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の消防・教育・警察部門職員数のデータ分析3 - R言語のboxplot.stats()関数で外れ値の都道府県を発見する。

 

www.crosshyou.info

 の続きです。

前回は、perGDP, perFire, perEdu, perPoliceと人口当たりの県内総生産額、消防職員人数、教育職員人数、警察職員人数を調べました。

今回は、R言語のboxplot.stats関数を使って外れ値の都道府県がどこなのか、確認したいと思います。

boxplot.stats関数の中の$outでわかります。

f:id:cross_hyou:20200425111608j:plain

perGDP, perEdu, perPoliceは東京都が外れ値ですね。そしてperEduは秋田県、青森県、島根県、福岡県、北海道が外れ値です。東京都は人口が多いのは当然ですが、人口当たりにしても別格なのですね。

この6都県道を取り除いた変数を作りましょう。

はじめにこの6都県が各変数の中で何番目にあるのか、which関数で調べます。

f:id:cross_hyou:20200425112013j:plain

37番目が東京都、秋田が24番目、27番目が青森、島根が36番目、43番目が福岡、北海道が46番目です。

ほんとうにそうか確認します。

f:id:cross_hyou:20200425113542j:plain

はい、ほんとうでしたね。

それでは、外れ値を除外して新しい変数を作りたいと思います。

f:id:cross_hyou:20200425113722j:plain

f:id:cross_hyou:20200425113734j:plain

左の箱ひげ図が外れ値を削除したoutGDPで、右の箱ひげ図が元のperGDPです。

perFireも同じように処理をします。

f:id:cross_hyou:20200425114043j:plain

f:id:cross_hyou:20200425114056j:plain

左のoutFireに外れ値が一つあって外れ値が除外されていないように見えますが、これは箱ひげ図の箱の長さが短くなったのでしかたがないです。

perEduも外れ値を削除して、outEduという名前の変数を作ります。

f:id:cross_hyou:20200425114348j:plain

f:id:cross_hyou:20200425114400j:plain

outFireと同じ理由で、outEduには下のほうに2つ外れ値があるように見えます。

perPoliceの外れ値を削除しましょう。

f:id:cross_hyou:20200425114615j:plain

f:id:cross_hyou:20200425114629j:plain

これでoutGDP, outFire, outEdu, outPoliceという外れ値を除外した変数ができました。

今回は以上です。