Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の食品営業施設処分件数のデータの分析1- R言語のread_csv関数でデータを読み込む。

今回は都道府県別の食品営業施設処分件数の分析をします。

まず、政府統計の総合窓口(www.e-stat.go.jp)からデータをダウンロードします。

f:id:cross_hyou:20210508075202p:plain

47都道府県を選択します。

f:id:cross_hyou:20210508075435p:plain

総人口(人)、食品営業施設数(所)、食品営業施設処分件数(件)、消費支出(全世帯)(円)を選択しました。

f:id:cross_hyou:20210508080117p:plain

このようなCSVファイルです。10行目に変数名を挿入しておきました。

早速R言語に読み込みしましょう。

はじめにtidyverseパッケージの読み込みをします。

f:id:cross_hyou:20210508080737p:plain

read_csv関数でファイルを読み込みします。

f:id:cross_hyou:20210508081907p:plain

前から用意してある都道府県名の英語名、東日本か西日本かの変数、東京都・大阪府・愛知県かの変数のファイルも読み込みます。

f:id:cross_hyou:20210508082223p:plain

codeを鍵にして、raw_dfとeng_prefの2つのデータフレームをinner_join関数で統合します。

f:id:cross_hyou:20210508083123p:plain

na.omit関数でNAのある行を削除します。

f:id:cross_hyou:20210508082556p:plain

str関数でdfの内容を確認します。

f:id:cross_hyou:20210508083323p:plain

いろいろと手を加えなければいけないです。

1. yearから100000を引いて、1000000で割る

2. year2は削除

3. pref.xは削除

4. pref.yという変数名をprefに変更

5. ewをファクタ型にする

6. big3をファクター型にする

それではmutate関数やselect関数やfactor関数を使って加工していきます。

f:id:cross_hyou:20210508084440p:plain

summary関数でdfの概要を見てみます。

f:id:cross_hyou:20210508084717p:plain

うまくできました。変数名を説明します。

year: 調査年

code: 都道府県コード、1000が北海道で47000が沖縄県

pop: 総人口(人)

shisetsu: 食品営業施設数(所)

shobun: 食品営業施設数処分件数(件)

shishutu: 1世帯当たりの消費支出(円)

ew: 東日本か西日本か

big3: 東京都・大阪府・愛知県なら1、その他なら0

pref: 都道府県名の英語

になります。処分件数は最小値は0、最大値は12645、平均値は349、中央値は130となっていますのでかなり偏りがあるデータ分布形状のようですね。

今回は以上です。