都道府県別の事業所数(民営)のデータ分析１ - R言語でデータを読み込む。

今回からは、都道府県別の事業所数(民営)のデータを分析しようと思います。

データは、政府統計の総合窓口e-statから取得しました。

f:id:cross_hyou:20200512073441j:plain

取得したデータは上の5つです。

f:id:cross_hyou:20200512073639j:plain

ダウンロードしたCSVファイルは上のような感じです。9行目に変数名を追加しました。

R言語のread.csv関数で読み込みます。

f:id:cross_hyou:20200512073919j:plain

データは9行目からはじまっていますので、skip = 8として頭の8行をとばしています。

***, -, X はNAを表しているので、na.strings = c("***", "-", "X")でこれらの文字をNAとして読み込みます。stringsAsFactors = FALSEとして、文字列のデータをファクターに変換しないで、文字列のまま読み込みます。

na.omit関数でNAのある行を削除します。

f:id:cross_hyou:20200512074231j:plain

str関数でデータの構造を確認しましょう。

f:id:cross_hyou:20200512074343j:plain

188行 x 7列のデータフレームです。

Yearを数値に変換します。substr関数とas.numeric関数を使います。

f:id:cross_hyou:20200512074612j:plain

3行目のclass関数でデータの型を確認しました。numericとなっていますから数値型です。

summary関数でdataのサマリを表示します。

f:id:cross_hyou:20200512074811j:plain

Yearを見ると、最小が2009で、最大が2016なので、2009年から2016年のデータですね。

table関数でもう少し詳しくみてみます。

f:id:cross_hyou:20200512075000j:plain

2009年度、2011年度、2014年度、2016年度の4つの年度のデータです。

人口密度、1人当りの課税対象所得、人口1万人当りの事業所数のデータを作ります。

f:id:cross_hyou:20200512122235j:plain

人口密度は一番高いところで、1ha当り62.1816人、一番低いところで0.6825人です。平均値は6.5505人です。中央値が2.7179なので結構ゆがんだ分布のようです。

f:id:cross_hyou:20200512122505j:plain

1人当りの課税対象所得は、一番多いところで217万9800円、一番低いところで84万9800円です。平均値は126万8800円です。中央値は125万8600円と平均値と同じくらいです。

f:id:cross_hyou:20200512122819j:plain

人口1万人当りの事業所数(民営) 従業員1~4人は、一番多いところで357.8か所、一番少ないところで164.2か所です。平均値は274.8か所、中央値は275.4か所です。

f:id:cross_hyou:20200512123032j:plain

人口1万人当りの事業所数(民営) 従業員300人以上は、一番多いところで、2.2711か所、一番少ないところで0.3190か所、平均値は0.7450か所、中央値は0.6872か所です。

今回は以上です。

www.crosshyou.info