Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の交際・付き合いの平均時間のデータの分析2 - 交際・付き合い時間は年を経るにつれて短時間になっている。

www.crosshyou.info

の続きです。前回はCSVファイルにあったデータをRに読み込ませました。今回は交際・付き合いの平均時間がどのような分布なのか、グラフで視覚化してデータの土地勘というかデータ勘を把握しましょう。

まずは、男性の交際時間のヒストグラムを描いてみます。

一つの観測データが40分以上で飛びぬけていますね。大半は20分を中心にして山型の分布です。

女性はどうでしょうか?

女性は外れ値は無いような感じで、20分よりも少し長いところが中心の山型の分布ですね。

男女の分布の違いを、もう少しわかりやくしてヒストグラムを描きます。

pivot_longer()関数で、男性と女性の交際・付き合いの平均時間を一つの変数にして、sexという変数で男女の区別をして、ヒストグラムをfacet_wrap()関数で別々にしました。上段のピンクが女性、下段の青緑が男性です。全体的にに女性のほうが右寄りのような気がします。女性 - 男性 の差を計算してヒストグラムにしてみましょう。

女性のほうが時間が長いところもあれば、短いところもあるのですね。

この男女差は興味深いので、変数として保存しておきましょう。

平均して、女性のほうが1.745分、交際・付き合いの時間が長いです。

今度は、調査年別に分布をみてみます。

これはもう傾向がはっきりしてますね。2001年度、2006年度、2011年度と年を経るにつれて時間が短くなっています。

男女差はどうでしょうか?

男女差は実際の交際時間ほどはっきりした傾向は無いようです。

年度が新しくなるにつれて、交際・付き合いの時間が短くなっていることがわかりました。

今回は以上です。

次回は

www.crosshyou.info

です。

 

はじめから読むには、

www.crosshyou.info

です。

 

今回のコードは以下になります。

#
# 男性の交際・付き合い時間のヒストグラム
df |> 
  ggplot(aes(x = hour_m)) +
  geom_histogram(binwidth = 3, 
                 color = "white",
                 boundary = 18)
#
# 女性の交際・付き合い時間のヒストグラム
df |> 
  ggplot(aes(x = hour_f)) +
  geom_histogram(binwidth = 3,
                 color = "white",
                 boundary = 18)
#
# 男女のヒストグラム
df |> 
  pivot_longer(
    cols = c(hour_m, hour_f),
    names_to = "sex",
    names_prefix = "hour_",
    values_to = "hour"
  ) |> 
  ggplot(aes(x = hour, fill = sex)) +
  geom_histogram(binwidth = 3,
                 color = "white",
                 boundary = 18) +
  facet_wrap(~ sex, ncol = 1)
#
# "女性 - 男性"のヒストグラム
df |> 
  mutate(diff = hour_f - hour_m) |> 
  ggplot(aes(x = diff)) +
  geom_histogram(color = "white",
                 binwidth = 1,
                 boundary = 0)
#
# "女性 - 男性" を変数として保存
df <- df |> 
  mutate(diff = hour_f - hour_m)
summary(df$diff)
#
# 年度の別のヒストグラム
df |> 
  pivot_longer(
    cols = c(hour_m, hour_f),
    names_to = "sex",
    names_prefix = "hour_",
    values_to = "hour"
  ) |> 
  ggplot(aes(x = hour, fill = year)) +
  geom_histogram(binwidth = 3,
                 color = "white",
                 boundary = 18) +
  facet_wrap(~ year, ncol = 1)
#
# 男女差の年度別のヒストグラム
df |> 
  ggplot(aes(x = diff, fill = year)) +
  geom_histogram(binwidth = 1,
                 color = "white",
                 boundary = 0) +
  facet_wrap(~ year, ncol = 1)
#

 

(冒頭の写真はBing Image Creatorで生成しました。プロンプトは、Landscape of purely natural ancient fields, close up of small white daisy flowers. Photo です。)