Photo by Daniel Seifried on Unsplash
の続きです。
今回は、各変数間の相関関係をみてみましょう。
2014年のデータを使ってみてみます。
まずは、調べる変数名の確認です。対数変換した変数で調べます。
names()関数でデータフレームdfの変数を表示しました。sort()関数でアルファベット順にしています。対数変換した変数は、"l_"で始まる変数です。
l_gdp: 対数変換した県内総生産額(百万円)
l_kachi: 対数変換した製造業付加価値額(百万円)
l_num: 対数変換した製造業事業所数(事業所)
l_pop: 対数変換した総人口数(人)
l_water: 対数変換した工業用水量(m3/日)
l_water_kachi: 対数変換した製造業付加価値額当りの工業用水量((m3/日)/百万円)
です。
cor()関数で相関係数を調べます。
l_waterと一番相関が強いのは、l_water_kachiですね。次がl_kachiで、3番目がl_gdpです。
l_gdp, l_kachi, l_num, l_popはどれも相関が強いですね。
この相関係数を散布図にして見える化しましょう。
まずは、簡単な、pairs()関数を使う方法です。
続いて、PerformanceAnalyticsパッケージのchart.Correlation()関数を使ってみます。
ヒストグラムと相関係数も同時に表示されます。
次は、psychパッケージのpairs.panel()関数を使ってみます。
ヒストグラムの色が青いですね。
corrgramパッケージのcorrgram()関数を使ってみます。
corrplotパッケージのcorrplot.mixed()関数を使ってみましょう。
今回は
Correlation Plot in R ◤Correlogram◢ [WITH EXAMPLES] (r-coder.com)
を参考にしていろいろな相関係数マトリックスを作成しました。
次回は
です。
初めから読むには、
です。