今回は都道府県別の食品営業施設処分件数の分析をします。
まず、政府統計の総合窓口(www.e-stat.go.jp)からデータをダウンロードします。
47都道府県を選択します。
総人口(人)、食品営業施設数(所)、食品営業施設処分件数(件)、消費支出(全世帯)(円)を選択しました。
このようなCSVファイルです。10行目に変数名を挿入しておきました。
早速R言語に読み込みしましょう。
はじめにtidyverseパッケージの読み込みをします。
read_csv関数でファイルを読み込みします。
前から用意してある都道府県名の英語名、東日本か西日本かの変数、東京都・大阪府・愛知県かの変数のファイルも読み込みます。
codeを鍵にして、raw_dfとeng_prefの2つのデータフレームをinner_join関数で統合します。
na.omit関数でNAのある行を削除します。
str関数でdfの内容を確認します。
いろいろと手を加えなければいけないです。
1. yearから100000を引いて、1000000で割る
2. year2は削除
3. pref.xは削除
4. pref.yという変数名をprefに変更
5. ewをファクタ型にする
6. big3をファクター型にする
それではmutate関数やselect関数やfactor関数を使って加工していきます。
summary関数でdfの概要を見てみます。
うまくできました。変数名を説明します。
year: 調査年
code: 都道府県コード、1000が北海道で47000が沖縄県
pop: 総人口(人)
shisetsu: 食品営業施設数(所)
shobun: 食品営業施設数処分件数(件)
shishutu: 1世帯当たりの消費支出(円)
ew: 東日本か西日本か
big3: 東京都・大阪府・愛知県なら1、その他なら0
pref: 都道府県名の英語
になります。処分件数は最小値は0、最大値は12645、平均値は349、中央値は130となっていますのでかなり偏りがあるデータ分布形状のようですね。
今回は以上です。