UnsplashのOpal Siegalが撮影した写真
今回からしばらくは、都道府県別の工業統計調査のデータを分析してみたいと思います。
データは、政府統計の総合窓口、e-stat.go.jp から取得します。
こんな感じのデータです。
これをCSVファイルに出力します。
このようなファイルです。
11行目に変数名を追加しています。
これをRに読み込ませます。
CSVファイルのデータを読み込むには、read_csv()関数を使います。
11行目からのデータを読み込みたいので、skip = 10 としています。
glimpse()関数でデータが問題なく読み込まれているか確認します。
大丈夫そうです。year, prefは文字列として読み込まれ、その他は数値として読み込まれました。
この工業統計のデータの他に、人口、県内総生産額、高校の生徒数のデータも読み込みます。
このようなファイルです。
これもread_csv()関数で読み込みます。
これもglimpse()関数でデータが読み込まれているか確認します。
こちらも正常に読み込むことができました。
どちらのデータも2014年のデータだけなので、変数yearは不要です。変数codeも都道府県名があるから不要ですね。
両方とも削除して2つのデータフレームをinner_join関数で統合します。
select()関数で、yearとcodeを除外して、それからinner_join()関数で2つのデータフレームを統合しました。これで分析用のデータフレーム、df が整いました。
各変数の意味を確認しておきましょう。
pref : 都道府県名
num : 事業所数、単位は1か所
staff : 従業者数、単位は1人
salary : 現金給与総額、単位は百万円
input: : 原材料使用額、単位は百万円
output : 製品出荷額、単位は百万円
add : 付加価値額、単位は百万円
invest : 有形固定資産投資総額、単位は百万円
jinko : 県の総人口、単位は1人
gdp : 県内総生産額、単位は百万円
student : 高校生の数、単位は1人
です。
今回は以上です。
次回は
です。