Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2009年の東京都の駅の乗車人数のデータの分析3 - group_by()関数とsummarize()関数で路線別のデータ

Bing Image Creator で生成: Landscape  of Phalaenopsis orchid garden, blue sky background, photo

www.crosshyou.info

の続きです。

今回は、group_by()関数とsummarize()関数を使って路線ごとのデータを見てみます。

中央線が30駅、青梅線が24駅、山手線が14駅、東北線が12駅、東海道線が10駅などとわかります。

平均乗車人数をみてみます。

山手線が7128万2千人で一番です。東海道線が6437万3千人で続きます。

この2路線が突出している感じですね。

グラフにして視覚化してみます。

グラフにすると、山手線と東海道線の2路線が突出しているのはよくわかりますね。

次は、onetimeの乗車人数の比率を調べてみます。

これは、各駅の比率を平均するのではなくて、各駅のonetimeの人数合計を各駅のtotal合計で割り算して求めます。

東北線が 0.462 で一番、定期券利用客以外の割合が高いです。

八高線が0.249で一番低いです。八高線は定期券利用の通勤・通学客がメインですね。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。

今回のコードは以下になります。

#
# 駅の数が多い路線は?
df |> 
  group_by(line) |> 
  summarize(n = n()) |> 
  arrange(desc(n))
#
# total: 平均乗車人数
df |> 
  group_by(line) |> 
  summarize(avg_total = mean(total)) |> 
  arrange(desc(avg_total))
#
# total: 平均乗車人数のグラフ
df |> 
  group_by(line) |> 
  summarize(avg_total = mean(total)) |> 
  mutate(line = reorder(line, avg_total)) |> 
  ggplot(aes(x = line, y = avg_total)) +
  geom_col(aes(fill = line)) +
  coord_flip() +
  theme(legend.position = "none")
#
# onetimeの比率
df |> 
  group_by(line) |> 
  summarize(sum_onetime = sum(onetime),
            sum_total = sum(total)) |> 
  mutate(onetime_ratio = sum_onetime / sum_total) |> 
  arrange(desc(onetime_ratio))
#