www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の一般事業投資額のデータ分析4 - 外れ値の都道府県を除外して相関マトリックスと散布図マトリックスを作成する。

 

www.crosshyou.info

 の続きです。

前回の箱ひげ図で、

Non215には下に一つ、Sala215には上に一つ、Zai215には上に一つ、Tou215には上に三つ、Sho15には上に一つの外れ値があることがわかりました。今回はこれらの外れ値を削除してから相関マトリックスと散布図マトリックスを作成してみたいと思います。sort関数、rev関数で大きい順、小さい順に並び替えて、head関数ではじめの6つの都道府県だけを表示しました。

f:id:cross_hyou:20200405154118j:plain

外れ値の都道府県は、Non215は東京都、Sala215は東京都、Zai215は東京都、Tou215は岩手県、宮城県、福島県、Sho15は東京都でした。東京都、岩手県、宮城県、福島県の4つを除外したらいいですね。names関数で都道府県名を出して、which関数をつかって4つの位置を確認します。

f:id:cross_hyou:20200405154833j:plain

東京都は37番目、岩手県は6番目、宮城県は9番目、福島県は44番目にあります。

f:id:cross_hyou:20200405155413j:plain

外れ値(outlier)を除外したので、outをつけた変数名にしました。箱ひげ図で外れ値が除外されているか確認します。boxplot関数で箱ひげ図です。

f:id:cross_hyou:20200405160106j:plain

f:id:cross_hyou:20200405160119j:plain

外れ値が無くなっているのが確認できました。

それでは、相関マトリックスを作成します。cor関数です。

f:id:cross_hyou:20200405160709j:plain

data.frame関数でdfoutというデータフレームを作成し、cor関数で処理すると相関マトリックスになります。今回は一般投資事業額が反応変数になりますので、一番初めにもってきました。Nonout(通学も従業もしていない人口比率)が高いほど、Salaout(1人当たりの給料・俸給)が低いほど、Zaiout(1人当りの財産所得)が低いほど、Shoout(1人当りの県民所得)が低いほど1人当りの一般事業投資額が高いことがわかります。

plot関数で散布図マトリックスを作成します。

f:id:cross_hyou:20200405161355j:plain

f:id:cross_hyou:20200405161410j:plain

一番上の行の散布図が縦軸がTououtの散布図になります。

赤い線は分布の傾向線ですが、Nonoutとは正の相関なので右肩上がり、その他は負の相関なので右肩下がりになっています。

今回は以上です。