Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2009年の東京都のJR駅の乗車人数のデータの分析1- CSVファイルのデータをRにインポートする。

Bing Image Creator で生成: Graceful camellia sasanqua garden, photo

東京都のウェブサイトから2009年の東京都にあるJRの駅の乗車人数のCSVファイルをダウンロードしました。

東京都統計年鑑 東京都統計年鑑 平成21年 運輸|東京都の統計

このようなファイルです。2行目は、私が変数名として追加しました。

このデータをRにインポートして、分析してみたいとおもいます。

まず、てはじめにtidyverseパッケージを読み込みます。

read_csv()関数でCSVファイルのデータを読み込みます。

インポートしたいデータは2行目から始まっているので、skip = 2 としています。

glimpse()関数でデータを確認します。

各駅のデータは2009年のデータだけなので、年のデータは不要です。

また、日本語の変数とmarkもいらないので、line, station, total, pass, onetimeだけにします。そして、NAの行を削除します。select()関数とna.omit()関数を使います。

glimpse()関数で確認します。

lineをファクター型の変数にします。as_factor()関数をmutate()関数の中で使います。

summary()関数を使って、このデータフレームのサマリーをみてみましょう。

中央線に属している駅が30駅で一番多いです。駅は全部で141駅ですね。

乗車人数が一番少ない駅は、2万9千人、一番多い駅は2億7321万1千です。日本人の人口よりも多い乗車人数の駅があるのですね。

今回は以上です。

次回は

www.crosshyou.info

です。

 

今回のコードは、以下になります。

#
# CSVファイルを読み込む
df_raw <- read_csv("tokyo_jr.csv",
                   skip = 1)
#
# データの確認
glimpse(df_raw)
#
# line, station, total, pass, onetimeだけにして、
# NAのある行を削除する
df <- df_raw |> 
  select(line, station, total, pass, onetime) |> 
  na.omit()
#
# データの確認
glimpse(df)
#
# lineをファクター型の変数にする
df <- df |> 
  mutate(line = as_factor(line))
#
# サマリー
summary(df)
#