Bing Image Creator で生成: Landscape of Phalaenopsis orchid garden, blue sky background, photo
の続きです。
今回は、group_by()関数とsummarize()関数を使って路線ごとのデータを見てみます。
中央線が30駅、青梅線が24駅、山手線が14駅、東北線が12駅、東海道線が10駅などとわかります。
平均乗車人数をみてみます。
山手線が7128万2千人で一番です。東海道線が6437万3千人で続きます。
この2路線が突出している感じですね。
グラフにして視覚化してみます。
グラフにすると、山手線と東海道線の2路線が突出しているのはよくわかりますね。
次は、onetimeの乗車人数の比率を調べてみます。
これは、各駅の比率を平均するのではなくて、各駅のonetimeの人数合計を各駅のtotal合計で割り算して求めます。
東北線が 0.462 で一番、定期券利用客以外の割合が高いです。
八高線が0.249で一番低いです。八高線は定期券利用の通勤・通学客がメインですね。
今回は以上です。
次回は、
です。
初めから読むには、
です。
今回のコードは以下になります。
#
# 駅の数が多い路線は?
df |>
group_by(line) |>
summarize(n = n()) |>
arrange(desc(n))
#
# total: 平均乗車人数
df |>
group_by(line) |>
summarize(avg_total = mean(total)) |>
arrange(desc(avg_total))
#
# total: 平均乗車人数のグラフ
df |>
group_by(line) |>
summarize(avg_total = mean(total)) |>
mutate(line = reorder(line, avg_total)) |>
ggplot(aes(x = line, y = avg_total)) +
geom_col(aes(fill = line)) +
coord_flip() +
theme(legend.position = "none")
#
# onetimeの比率
df |>
group_by(line) |>
summarize(sum_onetime = sum(onetime),
sum_total = sum(total)) |>
mutate(onetime_ratio = sum_onetime / sum_total) |>
arrange(desc(onetime_ratio))
#