cross_hyouという名前なのに、まったくクロス表分析をしていないので、これからしばらくクロス表分析をしたいと思います。
まず、2016年度の法人企業統計年報のデータをRで読み込みます。
データのcsvファイルは、Houjin2016.csvという名前のファイル名なので、読み込むコマンドは、
Houjin2016 <- read.csv("Houjin2016.csv")
です。
headコマンドとsummaryコマンドを使った結果が下の図です。
変数の説明をしますと、Indus_Codeは業種コード、Popuは母集団数、Soushi_Keijiは総資産経常利益率、Uria_Keijiは売上高経常利益率、Soushi_Kaiteは総資産回転率、Kiboは資本金の規模を表すカテゴリー変数、SeHiは製造業か非製造業かのカテゴリー変数です。
Popu, Soushi_Keiji, Uria_Keiji, Soushi_Kaiteの4つの変数が数量データなので、この4変数のカテゴリー変数を作成しようと思います。最小値~第1分位、第1分位~第3分位、第3分位~最大値の3つのカテゴリーに分けようと思います。
cutコマンドを使います。
このような結果になります。
カテゴリー化した変数の名前は、元の変数名の前に、C_ を付けて、C_Popuのようにしました。そして、小、中、大の3つのグループに分けたので、Popu_S, Popu_M, Popu_Lのように、_S, _M, _L を付けました。
これで、C_Popu, C_Soushi_Keiji, C_Uria_Keiji, C_Soushi_Kaite, Kibo, SeHi の6つのカテゴリカル変数が用意できました。
次回のブログでクロス表を作成したいと思います。