(Bing Image Creator で生成: プロンプト: Close up of coffee flowers, photo, background is tropical rain forest and high mountains)
今回からしばらくは、都道府県別の道路平均交通量を分析してみようと思います。
政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。
まず、47都道府県を選択します。
そして、以下のデータを選択してみました。
15~64歳人口、1人当たり県民所得はコントロール変数として使おうと思います。道路平均交通量は12時間当たりの台数の値のようです。
CSVファイルはこのような感じです。
8行目に、私が変数名を挿入しました。
このCSVファイルをRに読み込んで分析していきます。
まず、tidyverseパッケージの読み込みです。
read_csv()関数でCSVファイルのデータを読み込みます。
glimpse()関数でどんな感じかみてみます。
文字化けすることなく読み込むことができました。
これから分析しやすいようにデータフレームを少し加工します。
NAの削除、ycodeを4桁の数字にする、pcodeを1~47の数字にする、というのをやってみます。
summary()関数で各変数の統計値をみてみます。
year, pref のlengthが94となっています。47都道府県ですので、2年分のデータがあることがわかります。そして、ycodeを見ると、最小値が2015で最大値が2020なので、2015年度のデータと2020年度のデータがあることがわかりますね。
今回は以上です。
次回は
です。
今回のコードは以下になります。
#
# tidyverseパッケージの読み込み
library(tidyverse)
#
# CSVファイルの読み込み
df_raw <- read_csv("kotsuryo.csv",
skip = 7)
#
# df_rawの確認
glimpse(df_raw)
#
# データフレームの加工
df <- df_raw |>
na.omit() |>
mutate(
ycode = (ycode - 100000) / 1000000,
pcode = pcode / 1000
)
#
# 各変数の統計値
summary(df)
#