(Bing Image Creator で生成: プロンプト Close up of pink Albiza julibrissin flowers, background is blue sky, photo)
今回は都道府県別の
15歳~64歳人口割合【%】
1人当たり県民総所得(平成27年基準)【千円】
1人当たり最終エネルギー消費量【GJ】
の3つのデータを分析してみようと思います。
政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。
ダウンロードした CSV ファイルはこのような感じです。
これを R で分析します。まず、library() 関数で tidyverse パッケージを読み込みます。
read_csv() 関数で CSV ファイルをインポートします。
na.omit() 関数で NA の行を削除します。
glimpse() 関数でデータフレームの様子をみてみます。
上のでデータフレームの様子を見て、いくつか手を加えたいと思います。
ycode を、10万で割って4桁の西暦にする
year をファクター型にする
pcode を、1000で割って 1~47 にする
pref をファクター型にする
popratio, income, energy の自然対数の変数も作る
これらをやっていきます。 mutate() 関数を使ってやります。
ファクター型に変換するのは、fct() 関数を使います。自然対数に変換するのは、log() 関数を使います。
summary() 関数を使って、データフレームのサマリー統計値をみてみましょう。
あら、ycode はさらに 1 を引いて 10 で割らないといけないようですね。
もう一度、summary() 関数を使ってみます。
2011 年から 2020 年のデータのようです。
今回は以上です。
次回は
です。
今回のコードは以下になります。
#
# tidyvierse パッケージを読み込む
library(tidyverse)
#
# CSV ファイルをインポート
df_raw <- read_csv("energy_income_pop.csv",
skip = 7)
#
# NA 行を削除
df <- na.omit(df_raw)
#
# でデータフレームの様子
glimpse(df)
#
# df の加工
df <- df |>
mutate(
ycode = ycode / 100000,
year = fct(year),
pcode = pcode / 1000,
pref = fct(pref),
l_popratio = log(popratio),
l_income = log(income),
l_energy = log(energy)
)
#
# df のサマリー
summary(df)
#
# ycode の修正
df <- df |>
mutate(
ycode = (ycode - 1) / 10
)
#
# ycode のサマリー統計値
summary(df$ycode)
#