Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の道路平均交通量の分析1 - CSVファイルのデータをRに取り込む

(Bing Image Creator で生成: プロンプト: Close up of coffee flowers, photo, background is tropical rain forest and high mountains)

今回からしばらくは、都道府県別の道路平均交通量を分析してみようと思います。

政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。

まず、47都道府県を選択します。

そして、以下のデータを選択してみました。

15~64歳人口、1人当たり県民所得はコントロール変数として使おうと思います。道路平均交通量は12時間当たりの台数の値のようです。

CSVファイルはこのような感じです。

8行目に、私が変数名を挿入しました。

このCSVファイルをRに読み込んで分析していきます。

まず、tidyverseパッケージの読み込みです。

read_csv()関数でCSVファイルのデータを読み込みます。

glimpse()関数でどんな感じかみてみます。

文字化けすることなく読み込むことができました。

これから分析しやすいようにデータフレームを少し加工します。

NAの削除、ycodeを4桁の数字にする、pcodeを1~47の数字にする、というのをやってみます。

summary()関数で各変数の統計値をみてみます。

year, pref のlengthが94となっています。47都道府県ですので、2年分のデータがあることがわかります。そして、ycodeを見ると、最小値が2015で最大値が2020なので、2015年度のデータと2020年度のデータがあることがわかりますね。

今回は以上です。

次回は

www.crosshyou.info

です。

 

今回のコードは以下になります。

#
# tidyverseパッケージの読み込み
library(tidyverse)
#
# CSVファイルの読み込み
df_raw <- read_csv("kotsuryo.csv",
                   skip = 7)
#
# df_rawの確認
glimpse(df_raw)
#
# データフレームの加工
df <- df_raw |> 
  na.omit() |> 
  mutate(
    ycode = (ycode - 100000) / 1000000,
    pcode = pcode / 1000
  )
#
# 各変数の統計値
summary(df)
#