
の続きです。前回はCSVファイルにあったデータをRに読み込ませました。今回は交際・付き合いの平均時間がどのような分布なのか、グラフで視覚化してデータの土地勘というかデータ勘を把握しましょう。
まずは、男性の交際時間のヒストグラムを描いてみます。


一つの観測データが40分以上で飛びぬけていますね。大半は20分を中心にして山型の分布です。
女性はどうでしょうか?

女性は外れ値は無いような感じで、20分よりも少し長いところが中心の山型の分布ですね。
男女の分布の違いを、もう少しわかりやくしてヒストグラムを描きます。


pivot_longer()関数で、男性と女性の交際・付き合いの平均時間を一つの変数にして、sexという変数で男女の区別をして、ヒストグラムをfacet_wrap()関数で別々にしました。上段のピンクが女性、下段の青緑が男性です。全体的にに女性のほうが右寄りのような気がします。女性 - 男性 の差を計算してヒストグラムにしてみましょう。


女性のほうが時間が長いところもあれば、短いところもあるのですね。
この男女差は興味深いので、変数として保存しておきましょう。

平均して、女性のほうが1.745分、交際・付き合いの時間が長いです。
今度は、調査年別に分布をみてみます。


これはもう傾向がはっきりしてますね。2001年度、2006年度、2011年度と年を経るにつれて時間が短くなっています。
男女差はどうでしょうか?


男女差は実際の交際時間ほどはっきりした傾向は無いようです。
年度が新しくなるにつれて、交際・付き合いの時間が短くなっていることがわかりました。
今回は以上です。
次回は
です。
はじめから読むには、
です。
今回のコードは以下になります。
#
# 男性の交際・付き合い時間のヒストグラム
df |>
ggplot(aes(x = hour_m)) +
geom_histogram(binwidth = 3,
color = "white",
boundary = 18)
#
# 女性の交際・付き合い時間のヒストグラム
df |>
ggplot(aes(x = hour_f)) +
geom_histogram(binwidth = 3,
color = "white",
boundary = 18)
#
# 男女のヒストグラム
df |>
pivot_longer(
cols = c(hour_m, hour_f),
names_to = "sex",
names_prefix = "hour_",
values_to = "hour"
) |>
ggplot(aes(x = hour, fill = sex)) +
geom_histogram(binwidth = 3,
color = "white",
boundary = 18) +
facet_wrap(~ sex, ncol = 1)
#
# "女性 - 男性"のヒストグラム
df |>
mutate(diff = hour_f - hour_m) |>
ggplot(aes(x = diff)) +
geom_histogram(color = "white",
binwidth = 1,
boundary = 0)
#
# "女性 - 男性" を変数として保存
df <- df |>
mutate(diff = hour_f - hour_m)
summary(df$diff)
#
# 年度の別のヒストグラム
df |>
pivot_longer(
cols = c(hour_m, hour_f),
names_to = "sex",
names_prefix = "hour_",
values_to = "hour"
) |>
ggplot(aes(x = hour, fill = year)) +
geom_histogram(binwidth = 3,
color = "white",
boundary = 18) +
facet_wrap(~ year, ncol = 1)
#
# 男女差の年度別のヒストグラム
df |>
ggplot(aes(x = diff, fill = year)) +
geom_histogram(binwidth = 1,
color = "white",
boundary = 0) +
facet_wrap(~ year, ncol = 1)
#
(冒頭の写真はBing Image Creatorで生成しました。プロンプトは、Landscape of purely natural ancient fields, close up of small white daisy flowers. Photo です。)