今回は経済センサスのデータをR言語を使って分析したいと思います。
e-Stat(政府統計の総合窓口)から
2016年のこのデータと
2012年のこのデータをダウンロードして、
もとのデータベースには2000以上の地域がありましたが、札幌大都市圏などの大都市圏、都市圏の14地域だけにしました。CSVファイルには大都市圏、都市圏を省略しています。これをread.csv関数でR言語にデータを読み込み、head関数で始めの6行を、summary関数で基本統計量を算出します。
変数をひとつひとつ確認していきましょう。
時間軸は2012年と2014年の2値をとります。データ数はそれぞれ14なので、地域は14地域あるとわかります。
地域は宇都宮2、岡山2、、、とそれぞれの地域で2あります。2012年と2014年の2つの時間軸ですからね。
事業所数は最小値は2万9499、最大値は139万2179です。平均値は25万4173で中央値は9万0360です。平均値と中央値が大きく違っていますから分布は正規分布ではないことが予想されます。
総従業者数は最小値は29万1125、最大値は1766万0921です。平均値は288万4969、中央値は95万2315です。総従業者数も平均値と中央値がかなり違っています。
男性従業員者数は最小値は15万0937、最大値は998万1179です。平均値は161万9736、中央値は53万2170です。これも平均値と中央値が大きく違いますね。
女性従業員数は最小値は13万8791、最大値は757万8746です。平均値は125万2740で中央値は41万5985です。これも平均値と中央値が大きくはなれています。
面積事業所数、これは1平方キロメートル当りの事業所数です。最小値は12.20で最大値は102.30です。平均値は30.01で中央値は18.15です。これも値の分布には偏りがあるようですね。
面積従業者数、これは1平方キロメートル当りの従業者数です。最小値は115.2で最大値は1313.6です。平均値は330.3で中央値は189.8です。やっぱりこれも値の分布には偏りがあるようですね。
summary関数は便利ですが、標準偏差が算出されないので、sd関数で算出します。すべての変数を一度に計算したいので、apply関数と組み合わせます。
round関数で分かりやすく小数点以下2桁表示にしました。
変動係数(標準偏差 / 平均値)も計算しておきましょう。
apply関数とmean関数で各変数の平均値を出しておきます。そして、先ほど計算してあった標準偏差を平均値でわります。
こうしていると、男性従業者数が一番変動が大きく、面積事業所数が一番変動が小さいことがわかります。
男女の比率は2012年と2016年で変化があるのか、2012年と2016年で各変数はどのように変動しているのか、大都市圏と中小都市圏では違いがあるか?などについて調べてみたいと思います。
今回は以上です。
次回は
です。