今回からは、全国主要都市の第1次、第2次、第3次産業の就業者数のデータを分析しようと思います。
データは、政府統計の総合窓口e-statから取得しました。
www.e-stat.go.jp選択した都市は、
特別区、県庁所在市、政令指定都市、中核市の合計102都市です。
取得したデータは
総人口(人)
総面積(ha)
課税対象所得(千円)
第1次産業就業者数(人)
第2次産業就業者数(人)
第3次産業就業者数(人)です。
ダウンロードしたCSVファイルは上のようになります。
これをR言語のread.csv関数で読み込みます。
yearが調査年度、Cityが都市名、Popuが総人口、Areaが総面積、Incomeが課税対象所得、Firstが第1次産業就業者数、Secondが第2次産業就業者数、Thirdが第3次産業就業者数です。
str関数でデータ構造を確認すると、なぜかPopu以下のデータが数値ではなく文字列として読み込まれています。これは、, がファイルにあったからですね。gsub関数で , をなにもないようにしてから、as.numeric関数で数値型に変えます。
gsub関数、as.numeric関数、function関数、lapply関数、as.data.frame関数を使ってobjというデータフレームを作成しました。これに調査年度と都市名を加えます。
cbind関数でdf$yearとdf$Cityとobjを結合し、names関数でobjの列名を変更しました。
そして、新しくdatatという名前のデータフレームにしました。
さらに、人口密度、1人当り課税所得、第1次産業就業者比率、第2次産業就業者比率、第3次産業就業者比率を計算して変数に加えます。
人口密度は一番高い都市で1ha当り223人、1番低い都市で1.8人です。
1人当り課税所得は1番多い都市で556万1千円、1番少ない都市で67万3千円です。
第1次産業就労者数の割合は1番高い都市で15%, 1番少ないところでほとんど0%です。
第2次産業就業者数の割合は1番高い都市で58%, 1番低い都市で7.8%です。
第3次産業就業者数の比率が1番高いところでは92%で、1番低いところは、38%です。
第1次産業の就業者数が0という都市は無いということですね。東京の千代田区でもいるのかな?見てみましょう。
grep("千代田区", data$City)で"千代田区"が都市名にあればTRUEを、なければFALSEを返します。2000年度、2005年度が一番少ないですが、それでも3人いました。
今回は以上です。