crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別のエンゲル係数のデータの分析1 - R言語でデータを読み込み、エンゲル係数を計算する。

今回は都道府県別のエンゲル係数を計算してみようと思います。

エンゲル係数は、家計の消費支出に占める食料費の割合で、この係数が高いほど生活水準が低いとされるようです。
エンゲル係数とは - コトバンク (kotobank.jp)

f:id:cross_hyou:20210306165322p:plain

データは政府統計の総合窓口、e-statから取得しました。

政府統計の総合窓口 (e-stat.go.jp)

f:id:cross_hyou:20210306165602p:plain

f:id:cross_hyou:20210306165621p:plain

47都道府県を選択して、

f:id:cross_hyou:20210306165650p:plain

エンゲル係数を計算するのに必要な消費支出と食料費のデータ、

生活水準を1人当たりの県内総生産額で代用しようと思いますので、総人口と県内総生産も選びました。男性のほうがご飯をいっぱい食べるでしょうから、男女の比率が食料費に関係していると思われますので、男性の人口と女性の人口も選びました。働く世代の人のほうがいっぱい食べると思いますので、15~64歳人口割合も選びました。

ダウンロードしたエクセルファイルは

f:id:cross_hyou:20210306170137p:plain

こんな感じでした。9行目に変数名を挿入しました。

year: 調査年

pref: 都道府県名

pop: 総人口【人】

male: 男性の人口【人】

female: 女性の人口【人】

working: 15~64歳の人口割合[【%】

gdp: 県内総生産額(平成17年基準)【百万円】

all: 消費支出【円】

food: 食料費【円】です。

このCSVファイルをR言語に読み込みます。

準備として、tidyverseパッケージを読み込みます。

f:id:cross_hyou:20210306171013p:plain

read_csv関数で読み込みます。

f:id:cross_hyou:20210306171229p:plain

str関数でうまく読み込まれたどうか確認します。

f:id:cross_hyou:20210306171405p:plain

問題なく読み込まれました。

エンゲル係数や、1人当たりの県内総生産額、男女比を計算して分析用のデータフレームを作ります。dfと名前をつけます。

f:id:cross_hyou:20210306172746p:plain

na.omit関数でNAの行を削除して、mutate関数でgdp_pop: 1人当たりの県内総生産額、

mf: 男女比率、engel: エンゲル係数を計算し、select関数で必要な変数だけにしました。

summary関数でdfを見てみましょう。

f:id:cross_hyou:20210306172838p:plain

エンゲル係数は最小値は0.1920で最大値は0.2735で平均値は0.2271で中央値は0.2268です。

1人当たりの県内総生産額は最小値は266万9千円で最大値は790万円で平均値は373万5千円で中央値は359万8千円です。

男女比は最小値は0.8755で最大値は1.0224で平均値は0.9324で中央値は0.9269です。

15~64歳人口比率は最小値は58.9%で最大値は69.4%で平均値は63.65%で中央値は63.2%です。

yearとprefのlengthが141とありますから、141/47=3、調査年が3年ある、ということですね。

yearをファクター型にしておきましょう。

f:id:cross_hyou:20210306173324p:plain

今回は以上です。

次回は

 

www.crosshyou.info

 です。