今回は、個人企業経済調査というデータの分析をしてみます。
政府統計の総合窓口(www.e-stat.go.jp)のサイトからデータを取得します。
個人企業経済調査は、個人企業の経営の実態を明らかにし、中小企業振興のための基礎資料などを得ることを目的として実施している、とのことです。
表番号0801の産業大分類別営業状況 - 全国、都道府県
というデータをダウンロードしてみます。
こういうデータです。Excelファイルにダウンロードします。
こんな感じのCSVファイルです。12行目に変数名を挿入しました。
このCSVファイルをR言語で読み込みます。
まず、tidyverseパッケージを読み込ましょう。
read_csv関数でR言語にデータを読み込みます。
str関数でraw_dfを確認します。
問題なく読み込んだようです。
各変数は、たくさんありますが、ここで書いておきます。
時間軸(年次) コード: yearID
時間軸(年次): year
都道府県 コード: prefID
都道府県: pref
産業大分類: コード indusID
産業大分類: indus
売上高(1企業当たり)【千円】: sales
売上原価(1企業当たり)【千円】: cost
期首棚卸高(1企業当たり)【千円】: inventory_bef
仕入高(1企業当たり)【千円】: shiire
期末棚卸高(1企業当たり)【千円】: inventory_aft
売上総利益(1企業当たり)【千円】: gross_prof
営業費(1企業当たり)【千円】: op_expe
給料賃金(1企業当たり)【千円】: salary
営業経費(1企業当たり)【千円】: keihi
うち租税公課(1企業当たり)【千円】: keihi_tax
うち損害保険料(1企業当たり)【千円】: keihi_insu
うち減価償却費(1企業当たり)【千円】: keihi_depr
うち福利厚生費(1企業当たり)【千円】: keihi_welf
うち外注工賃(1企業当たり)【千円】: keihi_outc
うち利子割引料(1企業当たり)【千円】: keihi_inte
うち地代家賃(1企業当たり)【千円】: keihi_land
営業利益(1企業当たり)【千円】: op_prof
専従者給与(1企業当たり)【千円】: main_sala
棚卸高増減(1企業当たり)【千円】: inventory_chg
新規設備取得額(1企業当たり)【千円】: cap_exp_new
中古設備取得額(1企業当たり)【千円】: cap_exp_2nd
従業者数(1企業当たり)【人】: employee
うち事業主の家族で無給の人(1企業当たり)【人】: emp_no_sal
うち常用雇用者(1企業当たり)【人】: emp_always
うち臨時雇用者(1企業当たり)【人】: emp_tempo
年間総採用者数(1企業当たり)【人】: saiyou
年間総離職者数(1企業当たり)【人】: rishoku
従業者1人当たりの売上高(1企業当たり)【千円】: sales_emp
従業者1人当たりの営業利益(1企業当たり)【千円】: op_emp
全部で35個も変数があります。
データ分析用のデータフレームを作りましょう。
都道府県別のデータを見たいので、「全国」のデータは削除します。
prefをtable関数で表示させてみます。
どの都道府県も14個の観測がありますね。
yearも同じようにしてみます。
調査年度は2019年と2020年の2か年です。
indusもみてみましょう。
産業分類は、全産業、建設業、製造業、卸売業と小売業、宿泊業と飲食サービス業、生活関連サービス業と娯楽業、サービス業(上記産業を除く)の7種類ですね。
47都道府県 * 2か年 * 7産業 = 658の観測数がdfにはあります。
indusの7産業は文字数が長いし、日本語なので、英文字の略称に変更します。
まず、factor関数でファクター型に変換します。
ファクター型に変換して、levels関数でファクター水準の順番を確認し、上書きします。table関数でもういちど処理してみました。
今回は以上です。
次回は
です。