
Photo by Adam Śmigielski on Unsplash
の続きです。
複数のグラフを一度に表示したいので、gridExtraというパッケージを読み込みます。

続いて、各変数の密度分布グラフを描きましょう。
まず、pop: 総人口(人)です。populationのpopです。


人口のデータは対数をとったほうが正規分布に近くなりますね。
mar: 婚姻件数はどうでしょうか?marriageのmarです。


婚姻件数も対数をとったほうが正規分布に近くなりますね。
div: 離婚件数はどうでしょうか?divorceのdivです。


離婚件数も対数にしたほうが正規分布に近くなります。
gdp: 県内総生産額(平成17年基準・百万円単位)はどうでしょうか? gdpはGDP(Gross Domestic Product)の意味です。


県内総生産額も対数変換したほうが正規分布に近くなりますね。
sch: 中学校数(校)はどうでしょうか?schoolだからschです。


中学校の数も対数変換したほうが正規分布に近くなります。
lei: 行楽行動者率(15歳以上)(%)はどうでしょうか?leisureのleiです。


行楽行動者率は絶対数ではなくて比率ですので、対数変換してもしなくてもあまり分布の形状はかわらないですね。
以上を踏まえて、pop, mar, div, gdp, schを対数変換した変数を作ります。mutate()関数とlog()関数を使います。

散布図のマトリックスを描こうと思います。psychパッケージを読み込みます。

そうしたら、pairs.panels()関数を使います。


leiを除くと他のものは相関係数が0.9以上でみんな高い相関ですね。
あとで回帰分析をしようと思っているのですが、こんなに相関が高いのは困るので、新しい変数を作ります。


まず、離婚件数/(婚姻件数+離婚件数)という変数を作りました。離婚レシオとでもいいましょうか?値が大きいほど、婚姻件数と比較して離婚件数が多いという変数ですね。
密度分布グラフを見ると、対数に変換する必要はないようです。


gdp/popで1人当たりGDPを作りました。上の密度分布グラフを見ると、4(百万円)の少し下ぐらいにピークがありますね。これは対数変換したほうが良さそうですね。対数変換した変数も作っておきます。



pop/schで人口何人で中学校が1校あるのか、という指標を作りました。上のグラフを見ると9000人ぐらいのところにピークがありますね。これも対数変換した値のほうがより正規分布にというか、左右対称に近い感じですね。対数変換した変数も作っておきます。

こうして作成した、変数での相関を見てみます。


なんとなく適度に相関している感じになっていますね。
今回は以上です。
次回は
です。
初めから読むには、
です。