都道府県別の婚姻件数と離婚件数のデータの分析３ - 西日本のほうが離婚レシオは高く、東京、大阪、愛知、神奈川、千葉、埼玉の都会のほうが離婚レシオは低い。

f:id:cross_hyou:20211010082457j:plain

の続きです。

まず、あらかじめ用意してある、各地域の属性のデータを読み込みます。

f:id:cross_hyou:20211010083700p:plain

east: 東日本なら１，西日本なら０のダミー変数

big6: 東京都、神奈川県、千葉県、埼玉県、愛知県、大阪府なら１、その他は０のダミー変数

nosea: 海がなければ１、海があれば０のダミー変数です。

これをdf_fulと結合します。

f:id:cross_hyou:20211010084221p:plain

それでは、どの地域はdiv_marが高いか低いかみてみましょう。

f:id:cross_hyou:20211010084546p:plain

f:id:cross_hyou:20211010084558p:plain

高知県が一番、離婚レシオが高いですね。長野県が一番低いです。東日本は緑、西日本はピンクで色分けしていますが、西日本のほうが全体的に離婚レシオは高いようですね。

統計的に有意な差があるかどうか確認します。

f:id:cross_hyou:20211010084921p:plain

まずは、aov()関数とsummary()関数でdiv_marの値そのもので東日本と西日本で差があるかどうかを調べました。p値は2.58e-05と0に近い値ですので、両者に差が無いとは言えないです。

次に婚姻件数と離婚件数を東日本と西日本で合計して比較してみましょう。

f:id:cross_hyou:20211010085637p:plain

まず、group_by()関数とsummarize()関数で東日本、西日本ごとの婚姻件数と離婚件数を集計して離婚レシオを計算しました。

西日本(east = 0)は0.28ですから28%です。

東日本(east = 1)は0.25ですから25%です。

これをchisq.test()関数でカイ二乗検定しました。p-value < 2.2e-16ですから東日本と西日本で違いが無いとは言えないです。

同じように、海のある県(nosea = 0)と海の無い県でも調べてみましょう。

f:id:cross_hyou:20211010090238p:plain

f:id:cross_hyou:20211010090600p:plain

レシオそのものをANOVA分析する方法でも婚姻件数と離婚件数を集計してカイ二乗検定する方法でも海無し県と海有り県では両者に統計的な差があることがわかりました。

海有り県のほうが離婚レシオは高いです。

big6(東京都、神奈川県、埼玉県、千葉県、愛知県、大阪府)とその他ではどうでしょうか？

f:id:cross_hyou:20211010091007p:plain

離婚レシオをそのままANOVA分析する方法ではbig6とその他では有意な差は認められませんでした。

f:id:cross_hyou:20211010091338p:plain

婚姻件数と離婚件数を合計してカイ二乗検定する方法では、p値は0に近いですから、有意な差がありことがわかります。big6の離婚レシオは25%、その他は27%です。

big6のほうが離婚レシオが低いのですね。大都会のほうが離婚多いという先入観がありましたので、これは嬉しい発見です。

今回は以上です。

次回は、

です。

初めから読むには、

です。