UnsplashのAaron Burdenが撮影した写真
今回は都道府県別の経済構造実態調査のデータを分析してみようと思います。
まず、政府統計の総合窓口(e-stat.go.jp)からデータをダウンロードします。
経済構造実態調査は、我が国の製造業及びサービス産業における企業等の経済活動状況を明らかにし、国民経済計算の精度向上に資するとともに、企業等に関する施策の基礎資料を得ることを目的としているそうです。
2019年と2020年に調査をしています。
2020年のほうをクリックしてみます。
集計1と集計2があるようです。集計1をクリックしてみます。
データベースは1つだけのようです。クリックしてみます。
このようなデータでした。全国を除いてデータをダウンロードします。
このようなCSVファイルでした。
これを、不要な列を削除して、ヘッダーを英語に変更して、
このようにしました。
これと、昔から持っている都道府県別の人口データのCSVファイル、
を組み合わせて分析しようと思います。
まず、CSVファイルを読み込みます。
df_rawがちゃんと読み込まれたか、str()関数で確認します。
industryの変数名がおかしいので訂正します。
jinkouのデータフレームもstr()関数で確認します。
こちらは大丈夫のようです。
このdf_rawとjinkouを合体させます。まず。jinkouは2019年が最新なので、jinkouを2019年のデータだけにしてから、df_rawのarea_codeとjinkouのcodeを鍵にして合体させます。
are_codeとyearはもういらないので削除しておきます。
industryとprefをファクター型に変換しておきます。
これでやっと分析のためのデータフレームが整いました。
今回は以上です。