今回は、2016年度の法人企業統計年報のデータを使って、規模と総資本回転率のクロス表分析をしてみようと思います。
まず、read.csv関数でデータを読み込みます。
summary関数でどんなデータが読み込まれたかを確認してみましょう。
今日の分析で使うデータを説明すると、規模レベルがあります。
これは、
KL1 資本金10億円以上
KL2 資本金1億円以上10億円未満
KL3 資本金5千万円以上1億円未満
KL4 資本金2千万円以上5千万円未満
KL5 資本金1千万円以上2千万円未満
という5つのカテゴリで、それぞれ、45データあります。KL1だけ44ですが、これは漁業が資本金10億円以上の企業が無いためです。
総資本回転率は、最小値が0.030、第1分位が0.700、中央値が0.990、第3分位が1.222、最大値が3.220です。
クロス表を作成するためには、総資本回転率をカテゴリカル変数にしなければなりません。cut関数でカテゴリカル変数にしましょう。数値を区切る範囲は、第1分位以下、第1分位より大きく第3分位以下、第3分位より大きい、の3グループにします。
まず、breaksという変数名で区切り位置を決めます。
つぎに、lablesという変数名で作成するカテゴリカル変数の名前を決めます。
そして、cut関数でcut(元データ, breaks, lables)でカテゴリカル変数を作成します。
C_総資本回転率という名前で変数をつくり、Houjin2016$C_総資本回転率というようにしているので、もとのHoujin2016というデータフレームに追加しています。
それでは、規模レベルとC_総資本回転率のクロス表を作成しましょう。
table関数で作成します。
どうでしょうか?KL1の低総資本回転率が25と多いように感じます。
「規模と総資本回転率は関係がない」という仮説を帰無仮説にして、カイ二乗検定をしてみましょう。chisq.testという関数を使います。
p-value = 9.999e-05 < 0.005 なので、帰無仮説は棄却されます。つまり規模と総資本回転率は関係あると言えます。
では、どの組み合わせが有意になっているのか、調整済み残差を表示してみましょう。
$stdresでわかります。
調整済み残差は、プラスマイナス2以上の組合せが有意な組み合わせです。資本金10億円以上の企業は低総資本回転率が多く中総資本回転率、高総資本回転率が少ないことがわかります。KL2と高総資本回転率が多いこともわかります。
最後に、mosaicplot関数でモザイクグラフを表示して終わります。
mosaicplot(cross)で作成できます。