今回からは、都道府県別の食料費・住居費・被服及び履物費のデータを分析しようと思います。
いつものようにデータは、政府統計の総合窓口e-Statから取得しました。
取得したデータは以下のものです。
これをダウンロードすると、このようなファイルになります。
9行目に私が各データの変数名を挿入しました。
調査年 Year
地域(都道府県名) Pref
総人口(人) Popu
総面積(ha) Area
課税対象所得(千円) Income
食料費(円) Food
住居費(円) House
被服及び履物費(円) Wear
です。
R言語のread.csv関数でデータを読み込み、dfという名前のデータフレームで保存します。
データ本体は、9行目から始まっていますので、skip = 8 ではじめの8行を無視します。***, X, -はNAを表していますので、na.stringsで指定しています。stringsAsFactorsでFALSEにしていますので、文字列はファクターにしないで、そのまま文字列型として読み込んでいます。
na.omit関数でNAの行を削除しましょう。
str関数でデータフレームdfの構造を確認します。
各都道府県は人口や面積の規模がバラバラですから、人口で割って人口当りの値と人口を総面積で割って人口密度を表す変数を作ります。
一番人口密度の高いところは1ha当り59人ぐらいです。低いところは0.7人、平均値は6.3人、中央値は2.7人です。
課税対象所得を人口で割って人口当りの所得を計算します。
一番多いところは1人当り221万円です。少ないところは53万円です。平均値は121万円、中央値は121万円です。
食料費、住居費、被服及び履物費は1世帯の1か月平均の値なので、このままにします。
summary関数で平均値などを見ておきましょう。
食料費は一番多いところで9万4千円、少ないところで5万1千円、平均値は7万6千円、中央値は7万3千円です。
住居費は一番高いところで4万2千円、安いところで6802円、平均値が1万8千円、中央値は1万8千円です。
被服費・及び履物費は一番多いところで3万1千円、少ないところで7千円、平均値で1万9千円、中央値で1万9千円です。
Year, 年度を数値型になおしましょう。
substr関数で始めの4文字だけにして、as.numeric関数で数値型に変換します。
最小値が1985で最大値が2007ですから1985年から2007年のデータがあるということです。
今回は以上です。