都道府県別の工業統計調査のデータの分析１ - データをRに読み込ませる。

UnsplashのOpal Siegalが撮影した写真

今回からしばらくは、都道府県別の工業統計調査のデータを分析してみたいと思います。

データは、政府統計の総合窓口、e-stat.go.jp から取得します。

こんな感じのデータです。

これをCSVファイルに出力します。

このようなファイルです。

11行目に変数名を追加しています。

これをRに読み込ませます。

CSVファイルのデータを読み込むには、read_csv()関数を使います。

11行目からのデータを読み込みたいので、skip = 10 としています。

glimpse()関数でデータが問題なく読み込まれているか確認します。

大丈夫そうです。year, prefは文字列として読み込まれ、その他は数値として読み込まれました。

この工業統計のデータの他に、人口、県内総生産額、高校の生徒数のデータも読み込みます。

このようなファイルです。

これもread_csv()関数で読み込みます。

これもglimpse()関数でデータが読み込まれているか確認します。

こちらも正常に読み込むことができました。

どちらのデータも2014年のデータだけなので、変数yearは不要です。変数codeも都道府県名があるから不要ですね。

両方とも削除して２つのデータフレームをinner_join関数で統合します。

select()関数で、yearとcodeを除外して、それからinner_join()関数で２つのデータフレームを統合しました。これで分析用のデータフレーム、df が整いました。

各変数の意味を確認しておきましょう。

pref : 都道府県名

num : 事業所数、単位は1か所

staff : 従業者数、単位は１人

salary : 現金給与総額、単位は百万円

input: : 原材料使用額、単位は百万円

output : 製品出荷額、単位は百万円

add : 付加価値額、単位は百万円

invest : 有形固定資産投資総額、単位は百万円

jinko : 県の総人口、単位は１人

gdp : 県内総生産額、単位は百万円

student : 高校生の数、単位は１人

です。

今回は以上です。

次回は

です。