Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の15歳~64歳人口割合、1人当たり県民総所得、1人当たり最終エネルギー消費のデータの分析1 - R でデータをインポート

(Bing Image Creator で生成: プロンプト Close up of pink Albiza julibrissin flowers, background is blue sky, photo)

今回は都道府県別の

15歳~64歳人口割合【%】

1人当たり県民総所得(平成27年基準)【千円】

1人当たり最終エネルギー消費量【GJ】

の3つのデータを分析してみようと思います。

政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。

ダウンロードした CSV ファイルはこのような感じです。

これを R で分析します。まず、library() 関数で tidyverse パッケージを読み込みます。

read_csv() 関数で CSV ファイルをインポートします。

na.omit() 関数で NA の行を削除します。

glimpse() 関数でデータフレームの様子をみてみます。

上のでデータフレームの様子を見て、いくつか手を加えたいと思います。

ycode を、10万で割って4桁の西暦にする

year をファクター型にする

pcode を、1000で割って 1~47 にする

pref をファクター型にする

popratio, income, energy の自然対数の変数も作る

これらをやっていきます。 mutate() 関数を使ってやります。

ファクター型に変換するのは、fct() 関数を使います。自然対数に変換するのは、log() 関数を使います。

summary() 関数を使って、データフレームのサマリー統計値をみてみましょう。

あら、ycode はさらに 1 を引いて 10 で割らないといけないようですね。

もう一度、summary() 関数を使ってみます。

2011 年から 2020 年のデータのようです。

今回は以上です。

次回は

www.crosshyou.info

です。

 

今回のコードは以下になります。

#
# tidyvierse パッケージを読み込む
library(tidyverse)
#
# CSV ファイルをインポート
df_raw <- read_csv("energy_income_pop.csv",
                   skip = 7)
#
# NA 行を削除
df <- na.omit(df_raw)
#
# でデータフレームの様子
glimpse(df)
#
# df の加工
df <- df |> 
  mutate(
    ycode = ycode / 100000,
    year = fct(year),
    pcode = pcode / 1000,
    pref = fct(pref),
    l_popratio = log(popratio),
    l_income = log(income),
    l_energy = log(energy)
  )
#
# df のサマリー
summary(df)
#
# ycode の修正
df <- df |> 
  mutate(
    ycode = (ycode - 1) / 10
  )
#
# ycode のサマリー統計値
summary(df$ycode)
#