crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

全国主要都市の第1次、第2次、第3次産業就業者数データの分析1 - 東京都千代田区にも第1次産業就業者はいる。

今回からは、全国主要都市の第1次、第2次、第3次産業の就業者数のデータを分析しようと思います。

データは、政府統計の総合窓口e-statから取得しました。

www.e-stat.go.jp選択した都市は、

f:id:cross_hyou:20200518123326j:plain

特別区、県庁所在市、政令指定都市、中核市の合計102都市です。

取得したデータは

f:id:cross_hyou:20200518123429j:plain

総人口(人)

総面積(ha)

課税対象所得(千円)

第1次産業就業者数(人)

第2次産業就業者数(人)

第3次産業就業者数(人)です。

f:id:cross_hyou:20200518123613j:plain

ダウンロードしたCSVファイルは上のようになります。

これをR言語のread.csv関数で読み込みます。

f:id:cross_hyou:20200518124033j:plain

yearが調査年度、Cityが都市名、Popuが総人口、Areaが総面積、Incomeが課税対象所得、Firstが第1次産業就業者数、Secondが第2次産業就業者数、Thirdが第3次産業就業者数です。

str関数でデータ構造を確認すると、なぜかPopu以下のデータが数値ではなく文字列として読み込まれています。これは、, がファイルにあったからですね。gsub関数で , をなにもないようにしてから、as.numeric関数で数値型に変えます。

f:id:cross_hyou:20200518125429j:plain

gsub関数、as.numeric関数、function関数、lapply関数、as.data.frame関数を使ってobjというデータフレームを作成しました。これに調査年度と都市名を加えます。

f:id:cross_hyou:20200518130019j:plain

cbind関数でdf$yearとdf$Cityとobjを結合し、names関数でobjの列名を変更しました。

そして、新しくdatatという名前のデータフレームにしました。

さらに、人口密度、1人当り課税所得、第1次産業就業者比率、第2次産業就業者比率、第3次産業就業者比率を計算して変数に加えます。

f:id:cross_hyou:20200518130324j:plain

人口密度は一番高い都市で1ha当り223人、1番低い都市で1.8人です。

 

f:id:cross_hyou:20200518130557j:plain

1人当り課税所得は1番多い都市で556万1千円、1番少ない都市で67万3千円です。

 

f:id:cross_hyou:20200518131003j:plain

第1次産業就労者数の割合は1番高い都市で15%, 1番少ないところでほとんど0%です。

 

f:id:cross_hyou:20200518131741j:plain

第2次産業就業者数の割合は1番高い都市で58%, 1番低い都市で7.8%です。

 

f:id:cross_hyou:20200518132721j:plain

第3次産業就業者数の比率が1番高いところでは92%で、1番低いところは、38%です。

 

第1次産業の就業者数が0という都市は無いということですね。東京の千代田区でもいるのかな?見てみましょう。

f:id:cross_hyou:20200518133230j:plain

grep("千代田区", data$City)で"千代田区"が都市名にあればTRUEを、なければFALSEを返します。2000年度、2005年度が一番少ないですが、それでも3人いました。

 

今回は以上です。