の続きです。
前回の分析で東京都の23区は他とはかなり違いがあることがわかりましたので、まず、東京都23区かどうかという変数を作ろうと思います。R言語のgrepl関数を使いました。
東京都の中には八王子市も含まれていますので、八王子市はFALSEにします。
うまくできたか確認します。
summary関数でデータの数を集計しました。23区は7でその他は0になっていますのでうまくいきました。
2015年度だけのデータフレームを作り直します。
人口密度(Mitsu), 1人当り課税所得(perInc), 第1次産業就業者数割合(Ratio1), 第2次産業就業者数割合(Ratio2), 第3次産業就業者数割合(Ratio3)を分析したいので、この5つの変数を集めたベクトルを作ります。
このfive_variという変数を使えば、data15[ , five_vari]で5つの変数を選択できます。
わざわざ、data15[ , c("Mitsu", "perInc", "Ratio1", "Ratio2", "Ratio3")]としなくてもいいです。
これらの変数の箱ひげ図を描きます。boxplot関数です。
scale関数で平均値0、標準偏差1に標準化してからboxplot関数で箱ひげ図を描いています。Mitsu, perInc, Ratio2には上に外れ値があり、Ratio3には下に外れ値があります。Ratio1には外れ値は無いです。
hist関数でヒストグラムを描きます。
MitsuとperIncは極端に右側の裾が広がっていますね。対数変換をしましょう。
1行目のMitsuとperIncは17.412161と1298.596となっています。これらがlogMitsuでは2.857169とlogperIncは7.169039と対数変換されています。
data15とさきほど作ったfive_variを作り直します。
もういちどboxplot関数で箱ひげ図を描いてみます。
logMitsuには外れ値がなくなりましたね。logperIncにはまだ外れ値があります。それだけ1人当りの課税所得は少ないところと多いところの差が激しいということですね。
hist関数でヒストグラムも描いてみます。
logperIncも少し分布の山が右になりました。logMitsuは山が二つありますね。
pairs関数で散布図マトリックスを描きます。
Ratio2とRatio3はマイナスの相関です。
cor関数で相関係数マトリックスを見てみます。
Ratio2とRatio3の相関係数は-0.97と強い負の相関だとわかります。
今回は以上です。