Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の食料費・住居費・被服及び履物費のデータ分析1 - R言語にデータを読み込む

今回からは、都道府県別の食料費・住居費・被服及び履物費のデータを分析しようと思います。

いつものようにデータは、政府統計の総合窓口e-Statから取得しました。

www.e-stat.go.jp

取得したデータは以下のものです。

f:id:cross_hyou:20200503202228j:plain

 

これをダウンロードすると、このようなファイルになります。

f:id:cross_hyou:20200503202403j:plain

9行目に私が各データの変数名を挿入しました。

調査年 Year

地域(都道府県名) Pref

総人口(人) Popu

総面積(ha) Area

課税対象所得(千円) Income

食料費(円) Food

住居費(円) House

被服及び履物費(円) Wear

です。

R言語のread.csv関数でデータを読み込み、dfという名前のデータフレームで保存します。

f:id:cross_hyou:20200503203550j:plain

データ本体は、9行目から始まっていますので、skip = 8 ではじめの8行を無視します。***, X, -はNAを表していますので、na.stringsで指定しています。stringsAsFactorsでFALSEにしていますので、文字列はファクターにしないで、そのまま文字列型として読み込んでいます。

na.omit関数でNAの行を削除しましょう。

f:id:cross_hyou:20200503203949j:plain

str関数でデータフレームdfの構造を確認します。

f:id:cross_hyou:20200503204203j:plain

各都道府県は人口や面積の規模がバラバラですから、人口で割って人口当りの値と人口を総面積で割って人口密度を表す変数を作ります。

f:id:cross_hyou:20200503204526j:plain

一番人口密度の高いところは1ha当り59人ぐらいです。低いところは0.7人、平均値は6.3人、中央値は2.7人です。

課税対象所得を人口で割って人口当りの所得を計算します。

f:id:cross_hyou:20200503204906j:plain

一番多いところは1人当り221万円です。少ないところは53万円です。平均値は121万円、中央値は121万円です。

食料費、住居費、被服及び履物費は1世帯の1か月平均の値なので、このままにします。

summary関数で平均値などを見ておきましょう。

f:id:cross_hyou:20200503205914j:plain

食料費は一番多いところで9万4千円、少ないところで5万1千円、平均値は7万6千円、中央値は7万3千円です。

f:id:cross_hyou:20200503210131j:plain

住居費は一番高いところで4万2千円、安いところで6802円、平均値が1万8千円、中央値は1万8千円です。

f:id:cross_hyou:20200503210355j:plain

被服費・及び履物費は一番多いところで3万1千円、少ないところで7千円、平均値で1万9千円、中央値で1万9千円です。

 

Year, 年度を数値型になおしましょう。

substr関数で始めの4文字だけにして、as.numeric関数で数値型に変換します。

f:id:cross_hyou:20200503210712j:plain

最小値が1985で最大値が2007ですから1985年から2007年のデータがあるということです。

今回は以上です。