今回からは、都道府県別の事業所数(民営)のデータを分析しようと思います。
データは、政府統計の総合窓口e-statから取得しました。
取得したデータは上の5つです。
ダウンロードしたCSVファイルは上のような感じです。9行目に変数名を追加しました。
R言語のread.csv関数で読み込みます。
データは9行目からはじまっていますので、skip = 8として頭の8行をとばしています。
***, -, X はNAを表しているので、na.strings = c("***", "-", "X")でこれらの文字をNAとして読み込みます。stringsAsFactors = FALSEとして、文字列のデータをファクターに変換しないで、文字列のまま読み込みます。
na.omit関数でNAのある行を削除します。
str関数でデータの構造を確認しましょう。
188行 x 7列のデータフレームです。
Yearを数値に変換します。substr関数とas.numeric関数を使います。
3行目のclass関数でデータの型を確認しました。numericとなっていますから数値型です。
summary関数でdataのサマリを表示します。
Yearを見ると、最小が2009で、最大が2016なので、2009年から2016年のデータですね。
table関数でもう少し詳しくみてみます。
2009年度、2011年度、2014年度、2016年度の4つの年度のデータです。
人口密度、1人当りの課税対象所得、人口1万人当りの事業所数のデータを作ります。
人口密度は一番高いところで、1ha当り62.1816人、一番低いところで0.6825人です。平均値は6.5505人です。中央値が2.7179なので結構ゆがんだ分布のようです。
1人当りの課税対象所得は、一番多いところで217万9800円、一番低いところで84万9800円です。平均値は126万8800円です。中央値は125万8600円と平均値と同じくらいです。
人口1万人当りの事業所数(民営) 従業員1~4人は、一番多いところで357.8か所、一番少ないところで164.2か所です。平均値は274.8か所、中央値は275.4か所です。
人口1万人当りの事業所数(民営) 従業員300人以上は、一番多いところで、2.2711か所、一番少ないところで0.3190か所、平均値は0.7450か所、中央値は0.6872か所です。
今回は以上です。