Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の個人企業経済調査のデータの分析1 - R言語でデータを読み込む。

今回は、個人企業経済調査というデータの分析をしてみます。

政府統計の総合窓口(www.e-stat.go.jp)のサイトからデータを取得します。

f:id:cross_hyou:20210313165235p:plain

f:id:cross_hyou:20210313165502p:plain

個人企業経済調査は、個人企業の経営の実態を明らかにし、中小企業振興のための基礎資料などを得ることを目的として実施している、とのことです。

f:id:cross_hyou:20210313165701p:plain

表番号0801の産業大分類別営業状況 - 全国、都道府県

というデータをダウンロードしてみます。

f:id:cross_hyou:20210313165849p:plain

こういうデータです。Excelファイルにダウンロードします。

f:id:cross_hyou:20210313171016p:plain

こんな感じのCSVファイルです。12行目に変数名を挿入しました。

このCSVファイルをR言語で読み込みます。

まず、tidyverseパッケージを読み込ましょう。

f:id:cross_hyou:20210313171910p:plain

read_csv関数でR言語にデータを読み込みます。

f:id:cross_hyou:20210313172204p:plain

str関数でraw_dfを確認します。

f:id:cross_hyou:20210313172648p:plain

f:id:cross_hyou:20210313172722p:plain

問題なく読み込んだようです。

各変数は、たくさんありますが、ここで書いておきます。

時間軸(年次) コード: yearID

時間軸(年次): year

都道府県 コード: prefID

都道府県: pref

産業大分類: コード indusID

産業大分類: indus

売上高(1企業当たり)【千円】: sales

売上原価(1企業当たり)【千円】: cost

期首棚卸高(1企業当たり)【千円】: inventory_bef

仕入高(1企業当たり)【千円】: shiire

期末棚卸高(1企業当たり)【千円】: inventory_aft

売上総利益(1企業当たり)【千円】: gross_prof

営業費(1企業当たり)【千円】: op_expe

給料賃金(1企業当たり)【千円】: salary

営業経費(1企業当たり)【千円】: keihi

    うち租税公課(1企業当たり)【千円】: keihi_tax

    うち損害保険料(1企業当たり)【千円】: keihi_insu

    うち減価償却費(1企業当たり)【千円】: keihi_depr

    うち福利厚生費(1企業当たり)【千円】: keihi_welf

    うち外注工賃(1企業当たり)【千円】: keihi_outc

    うち利子割引料(1企業当たり)【千円】: keihi_inte

    うち地代家賃(1企業当たり)【千円】: keihi_land

営業利益(1企業当たり)【千円】: op_prof

専従者給与(1企業当たり)【千円】: main_sala

棚卸高増減(1企業当たり)【千円】: inventory_chg

新規設備取得額(1企業当たり)【千円】: cap_exp_new

中古設備取得額(1企業当たり)【千円】: cap_exp_2nd

従業者数(1企業当たり)【人】: employee

    うち事業主の家族で無給の人(1企業当たり)【人】: emp_no_sal

    うち常用雇用者(1企業当たり)【人】: emp_always

    うち臨時雇用者(1企業当たり)【人】: emp_tempo

年間総採用者数(1企業当たり)【人】: saiyou

年間総離職者数(1企業当たり)【人】: rishoku

従業者1人当たりの売上高(1企業当たり)【千円】: sales_emp

従業者1人当たりの営業利益(1企業当たり)【千円】: op_emp

全部で35個も変数があります。

データ分析用のデータフレームを作りましょう。

都道府県別のデータを見たいので、「全国」のデータは削除します。

f:id:cross_hyou:20210313173914p:plain

prefをtable関数で表示させてみます。

f:id:cross_hyou:20210313174153p:plain

どの都道府県も14個の観測がありますね。

yearも同じようにしてみます。

f:id:cross_hyou:20210313174351p:plain

調査年度は2019年と2020年の2か年です。

indusもみてみましょう。

f:id:cross_hyou:20210313174815p:plain

産業分類は、全産業、建設業、製造業、卸売業と小売業、宿泊業と飲食サービス業、生活関連サービス業と娯楽業、サービス業(上記産業を除く)の7種類ですね。

47都道府県 * 2か年 * 7産業 = 658の観測数がdfにはあります。

indusの7産業は文字数が長いし、日本語なので、英文字の略称に変更します。

まず、factor関数でファクター型に変換します。

f:id:cross_hyou:20210313175844p:plain

ファクター型に変換して、levels関数でファクター水準の順番を確認し、上書きします。table関数でもういちど処理してみました。

今回は以上です。

 次回は

 

www.crosshyou.info

 です。