www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析3 - 1人当りの課税所得は差が大きい。

 

www.crosshyou.info

 の続きです。

前回の分析で東京都の23区は他とはかなり違いがあることがわかりましたので、まず、東京都23区かどうかという変数を作ろうと思います。R言語のgrepl関数を使いました。

f:id:cross_hyou:20200520063917j:plain

東京都の中には八王子市も含まれていますので、八王子市はFALSEにします。

f:id:cross_hyou:20200520064031j:plain

うまくできたか確認します。

f:id:cross_hyou:20200520064623j:plain

summary関数でデータの数を集計しました。23区は7でその他は0になっていますのでうまくいきました。

 

2015年度だけのデータフレームを作り直します。

f:id:cross_hyou:20200520064836j:plain

人口密度(Mitsu), 1人当り課税所得(perInc), 第1次産業就業者数割合(Ratio1), 第2次産業就業者数割合(Ratio2), 第3次産業就業者数割合(Ratio3)を分析したいので、この5つの変数を集めたベクトルを作ります。

f:id:cross_hyou:20200520070240j:plain

このfive_variという変数を使えば、data15[ , five_vari]で5つの変数を選択できます。

わざわざ、data15[ , c("Mitsu", "perInc", "Ratio1", "Ratio2", "Ratio3")]としなくてもいいです。

これらの変数の箱ひげ図を描きます。boxplot関数です。

f:id:cross_hyou:20200520070608j:plain

f:id:cross_hyou:20200520070621j:plain

scale関数で平均値0、標準偏差1に標準化してからboxplot関数で箱ひげ図を描いています。Mitsu, perInc, Ratio2には上に外れ値があり、Ratio3には下に外れ値があります。Ratio1には外れ値は無いです。

 

hist関数でヒストグラムを描きます。

f:id:cross_hyou:20200520071033j:plain

f:id:cross_hyou:20200520071045j:plain

MitsuとperIncは極端に右側の裾が広がっていますね。対数変換をしましょう。

f:id:cross_hyou:20200520071237j:plain

1行目のMitsuとperIncは17.412161と1298.596となっています。これらがlogMitsuでは2.857169とlogperIncは7.169039と対数変換されています。

data15とさきほど作ったfive_variを作り直します。

f:id:cross_hyou:20200520071552j:plain

もういちどboxplot関数で箱ひげ図を描いてみます。

f:id:cross_hyou:20200520071819j:plain

f:id:cross_hyou:20200520071921j:plain

logMitsuには外れ値がなくなりましたね。logperIncにはまだ外れ値があります。それだけ1人当りの課税所得は少ないところと多いところの差が激しいということですね。

hist関数でヒストグラムも描いてみます。

f:id:cross_hyou:20200520072503j:plain

logperIncも少し分布の山が右になりました。logMitsuは山が二つありますね。

 

pairs関数で散布図マトリックスを描きます。

f:id:cross_hyou:20200520072750j:plain

Ratio2とRatio3はマイナスの相関です。

cor関数で相関係数マトリックスを見てみます。

f:id:cross_hyou:20200520073000j:plain

Ratio2とRatio3の相関係数は-0.97と強い負の相関だとわかります。
今回は以上です。