Photo by Free Nature Stock on Unsplash
の続きです。
まず、あらかじめ用意してある、各地域の属性のデータを読み込みます。
east: 東日本なら1,西日本なら0のダミー変数
big6: 東京都、神奈川県、千葉県、埼玉県、愛知県、大阪府なら1、その他は0のダミー変数
nosea: 海がなければ1、海があれば0のダミー変数です。
これをdf_fulと結合します。
それでは、どの地域はdiv_marが高いか低いかみてみましょう。
高知県が一番、離婚レシオが高いですね。長野県が一番低いです。東日本は緑、西日本はピンクで色分けしていますが、西日本のほうが全体的に離婚レシオは高いようですね。
統計的に有意な差があるかどうか確認します。
まずは、aov()関数とsummary()関数でdiv_marの値そのもので東日本と西日本で差があるかどうかを調べました。p値は2.58e-05と0に近い値ですので、両者に差が無いとは言えないです。
次に婚姻件数と離婚件数を東日本と西日本で合計して比較してみましょう。
まず、group_by()関数とsummarize()関数で東日本、西日本ごとの婚姻件数と離婚件数を集計して離婚レシオを計算しました。
西日本(east = 0)は0.28ですから28%です。
東日本(east = 1)は0.25ですから25%です。
これをchisq.test()関数でカイ二乗検定しました。p-value < 2.2e-16ですから東日本と西日本で違いが無いとは言えないです。
同じように、海のある県(nosea = 0)と海の無い県でも調べてみましょう。
レシオそのものをANOVA分析する方法でも婚姻件数と離婚件数を集計してカイ二乗検定する方法でも海無し県と海有り県では両者に統計的な差があることがわかりました。
海有り県のほうが離婚レシオは高いです。
big6(東京都、神奈川県、埼玉県、千葉県、愛知県、大阪府)とその他ではどうでしょうか?
離婚レシオをそのままANOVA分析する方法ではbig6とその他では有意な差は認められませんでした。
婚姻件数と離婚件数を合計してカイ二乗検定する方法では、p値は0に近いですから、有意な差がありことがわかります。big6の離婚レシオは25%、その他は27%です。
big6のほうが離婚レシオが低いのですね。大都会のほうが離婚多いという先入観がありましたので、これは嬉しい発見です。
今回は以上です。
次回は、
です。
初めから読むには、
です。