www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の婚姻件数と離婚件数のデータの分析2 - R言語のmutate関数でデータフレーム内の変数を組み合わせて加工したり・変換する。

f:id:cross_hyou:20211009164918j:plain

Photo by Adam Śmigielski on Unsplash 

www.crosshyou.info

の続きです。

複数のグラフを一度に表示したいので、gridExtraというパッケージを読み込みます。

f:id:cross_hyou:20211009164627p:plain

続いて、各変数の密度分布グラフを描きましょう。

まず、pop: 総人口(人)です。populationのpopです。

f:id:cross_hyou:20211009165043p:plain

f:id:cross_hyou:20211009165054p:plain

人口のデータは対数をとったほうが正規分布に近くなりますね。

mar: 婚姻件数はどうでしょうか?marriageのmarです。

f:id:cross_hyou:20211009165308p:plain

f:id:cross_hyou:20211009165317p:plain

婚姻件数も対数をとったほうが正規分布に近くなりますね。

div: 離婚件数はどうでしょうか?divorceのdivです。

f:id:cross_hyou:20211009165454p:plain

f:id:cross_hyou:20211009165504p:plain

離婚件数も対数にしたほうが正規分布に近くなります。

gdp: 県内総生産額(平成17年基準・百万円単位)はどうでしょうか? gdpはGDP(Gross Domestic Product)の意味です。

f:id:cross_hyou:20211009165722p:plain

f:id:cross_hyou:20211009165732p:plain

県内総生産額も対数変換したほうが正規分布に近くなりますね。

sch: 中学校数(校)はどうでしょうか?schoolだからschです。

f:id:cross_hyou:20211009165925p:plain

f:id:cross_hyou:20211009165936p:plain

中学校の数も対数変換したほうが正規分布に近くなります。

lei: 行楽行動者率(15歳以上)(%)はどうでしょうか?leisureのleiです。

f:id:cross_hyou:20211009170130p:plain

f:id:cross_hyou:20211009170139p:plain

行楽行動者率は絶対数ではなくて比率ですので、対数変換してもしなくてもあまり分布の形状はかわらないですね。

以上を踏まえて、pop, mar, div, gdp, schを対数変換した変数を作ります。mutate()関数とlog()関数を使います。

f:id:cross_hyou:20211009170334p:plain

散布図のマトリックスを描こうと思います。psychパッケージを読み込みます。

f:id:cross_hyou:20211009170434p:plain

そうしたら、pairs.panels()関数を使います。

f:id:cross_hyou:20211009173951p:plain

f:id:cross_hyou:20211009174003p:plain

leiを除くと他のものは相関係数が0.9以上でみんな高い相関ですね。

あとで回帰分析をしようと思っているのですが、こんなに相関が高いのは困るので、新しい変数を作ります。

f:id:cross_hyou:20211009170839p:plain

f:id:cross_hyou:20211009170847p:plain

まず、離婚件数/(婚姻件数+離婚件数)という変数を作りました。離婚レシオとでもいいましょうか?値が大きいほど、婚姻件数と比較して離婚件数が多いという変数ですね。

密度分布グラフを見ると、対数に変換する必要はないようです。

f:id:cross_hyou:20211009171621p:plain

f:id:cross_hyou:20211009171631p:plain

gdp/popで1人当たりGDPを作りました。上の密度分布グラフを見ると、4(百万円)の少し下ぐらいにピークがありますね。これは対数変換したほうが良さそうですね。対数変換した変数も作っておきます。

f:id:cross_hyou:20211009171855p:plain

f:id:cross_hyou:20211009172350p:plain

f:id:cross_hyou:20211009172404p:plain

pop/schで人口何人で中学校が1校あるのか、という指標を作りました。上のグラフを見ると9000人ぐらいのところにピークがありますね。これも対数変換した値のほうがより正規分布にというか、左右対称に近い感じですね。対数変換した変数も作っておきます。

f:id:cross_hyou:20211009173105p:plain

こうして作成した、変数での相関を見てみます。

f:id:cross_hyou:20211009173635p:plain

f:id:cross_hyou:20211009173649p:plain

なんとなく適度に相関している感じになっていますね。

今回は以上です。

次回は

 

www.crosshyou.info

です。

初めから読むには、

 

www.crosshyou.info

です。