Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の第1次産業・第2次産業・第3次産業事業所数のデータ分析1 - R言語でデータを読み込む。

今回からは、都道府県別の第1次産業・第2次・3産業事業所数のデータを分析してみようと思います。

データは、政府統計の総合窓口 e-Stat から取得しました。

www.e-stat.go.jp

取得したデータ項目はこちらです。

f:id:cross_hyou:20200430131155j:plain

データをダウンロードすると、こんな感じのCSVファイルです。

f:id:cross_hyou:20200430131628j:plain

9行目のYear, Pref, Popu, GDP, First, Second, Thirdは私が付け足した変数名です。

このCSVファイルをR言語のread.csvファイルで読み込みます。

f:id:cross_hyou:20200430131814j:plain

データは9行目から始まっていますので、skip = 8 で8行はスキップしています。

***, X, - はNAを意味する文字列なので、na.strings = c("***", "X", "-")でこれらの文字列をNAとして読み込みます。

stringsAsFactors = FALSEとしていますので、文字列はファクターに変換しないで、文字列として読み込みます。

f:id:cross_hyou:20200430135107j:plain

na.omit関数でNAのある行を削除して、str関数でデータフレームの構造を確認しました。94行、7列のデータフレームです。

GDP(県内総生産額), First(第1次産業事業所数), Second(第2次産業事業所数), Third(第3位産業事業所数)の各変数をPopu(総人口)で割って人口当りの変数を作成します。

f:id:cross_hyou:20200430135636j:plain

summary関数で統計値を出しました。1人当りの県内総生産額は最小が259万9千円で、最大が763万8千円です。へいきんちは364万2千円、中央値は357万7千円です。

f:id:cross_hyou:20200430145337j:plain

事業所数は1万人当りの数にしました。

第1次産業の事業所数は一番少ないところで0.3207事業所、一番多いところで、10.4921事業所、平均で3.8811事業所、中央値で3.4699事業所です。

 

f:id:cross_hyou:20200430145646j:plain

第2次産業の事業所数は、一番少ないところで、52.34事業所、一番多いところで145.33事業所、中央値は86.54事業所、平均値は89.05事業所です。

 

f:id:cross_hyou:20200430182033j:plain

第3次産業は、一番少ないところで267.5事業所、一番多いところで460.1事業所で、平均は390.9事業所、中央値は399.9事業所です。

第3次産業が一番多いのですね

今回は以上です。