Bing Image Creator で生成: Graceful camellia sasanqua garden, photo
東京都のウェブサイトから2009年の東京都にあるJRの駅の乗車人数のCSVファイルをダウンロードしました。
東京都統計年鑑 東京都統計年鑑 平成21年 運輸|東京都の統計
このようなファイルです。2行目は、私が変数名として追加しました。
このデータをRにインポートして、分析してみたいとおもいます。
まず、てはじめにtidyverseパッケージを読み込みます。
read_csv()関数でCSVファイルのデータを読み込みます。
インポートしたいデータは2行目から始まっているので、skip = 2 としています。
glimpse()関数でデータを確認します。
各駅のデータは2009年のデータだけなので、年のデータは不要です。
また、日本語の変数とmarkもいらないので、line, station, total, pass, onetimeだけにします。そして、NAの行を削除します。select()関数とna.omit()関数を使います。
glimpse()関数で確認します。
lineをファクター型の変数にします。as_factor()関数をmutate()関数の中で使います。
summary()関数を使って、このデータフレームのサマリーをみてみましょう。
中央線に属している駅が30駅で一番多いです。駅は全部で141駅ですね。
乗車人数が一番少ない駅は、2万9千人、一番多い駅は2億7321万1千です。日本人の人口よりも多い乗車人数の駅があるのですね。
今回は以上です。
次回は
です。
今回のコードは、以下になります。
#
# CSVファイルを読み込む
df_raw <- read_csv("tokyo_jr.csv",
skip = 1)
#
# データの確認
glimpse(df_raw)
#
# line, station, total, pass, onetimeだけにして、
# NAのある行を削除する
df <- df_raw |>
select(line, station, total, pass, onetime) |>
na.omit()
#
# データの確認
glimpse(df)
#
# lineをファクター型の変数にする
df <- df |>
mutate(line = as_factor(line))
#
# サマリー
summary(df)
#