www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

法人企業統計の分析7 - 数量データのカテゴリデータ化

f:id:cross_hyou:20180519121731j:plain

cross_hyouという名前なのに、まったくクロス表分析をしていないので、これからしばらくクロス表分析をしたいと思います。

まず、2016年度の法人企業統計年報のデータをRで読み込みます。

データのcsvファイルは、Houjin2016.csvという名前のファイル名なので、読み込むコマンドは、

Houjin2016 <- read.csv("Houjin2016.csv")

です。

headコマンドとsummaryコマンドを使った結果が下の図です。

f:id:cross_hyou:20180530190620j:plain

変数の説明をしますと、Indus_Codeは業種コード、Popuは母集団数、Soushi_Keijiは総資産経常利益率、Uria_Keijiは売上高経常利益率、Soushi_Kaiteは総資産回転率、Kiboは資本金の規模を表すカテゴリー変数、SeHiは製造業か非製造業かのカテゴリー変数です。

Popu, Soushi_Keiji, Uria_Keiji, Soushi_Kaiteの4つの変数が数量データなので、この4変数のカテゴリー変数を作成しようと思います。最小値~第1分位、第1分位~第3分位、第3分位~最大値の3つのカテゴリーに分けようと思います。

cutコマンドを使います。

このような結果になります。

f:id:cross_hyou:20180530193052j:plain

カテゴリー化した変数の名前は、元の変数名の前に、C_ を付けて、C_Popuのようにしました。そして、小、中、大の3つのグループに分けたので、Popu_S, Popu_M, Popu_Lのように、_S, _M, _L を付けました。

これで、C_Popu, C_Soushi_Keiji, C_Uria_Keiji, C_Soushi_Kaite, Kibo, SeHi の6つのカテゴリカル変数が用意できました。

次回のブログでクロス表を作成したいと思います。