の続きです。
今回は「前(株)と後(株)」、「製造業、非製造業、金融業」、「役員数の多中少」の3種類のカテゴリカル変数同士のクロス集計をして、これらの変数間には関連性があるのかないのかをR言語で分析してみたいと思います。
まず、summary関数で3変数の度数を確認しましょう。
それでは、まずは、株と中分類のクロス表をテーブル関数で作成します。
金融業と非製造業は前株が多く、製造業は後株が多いですね。
chisq.test関数でカイ自乗検定をします。
p-value < 2.2e-16 です。0.05よりも小さいです。有意です。前株、後株と業種は関連があるということですね。調整済み残差を表示してどの部分が有意なのかを確認します。
金融業と非製造業は前株が多く、製造業は後株が多いです。
続いて、株と役員数グループのクロス表集計をします。table関数です。
う~ん、どうでしょうか?中分類ほどはっきりした傾向はないようですね。prop.table関数で比率を計算します。
役員数が少ない会社は前株が多く、役員数が中くらいと多い会社は後株が多いですね。chisq.test関数でカイ自乗検定をします。
p値が2.2e-16と0.05より小さいです。つまり、前株、後株と役員数の多い少ないは関連性があるということです。調整済み残差を表示して、クロス表のどのセルが有意なのかを確認します。
調整済み残差は絶対値が1.96よりも大きいセルが有意だということですで、全てのセルで有意ですね。役員数が少ない会社は前株が多く、そうでない会社は後株が多いです。
最後は役員数グループと中分類ですね。table関数でクロス集計表を作成します。
う~ん、3行3列のクロス表だとパッと見てもよくわからないですね。比率を計算しましょう。prop.table関数でmargin = 2 として列の合計が100%になるようにします。
役員数が少ないグループは非製造業が多くて、役員数が多いグループは金融業が多い傾向ですね。chisq.test関数でカイ自乗検定をしましょう。
これもp値が2.2e-16 なので0.05よりも小さいです。つまり、業種と役員数には関連性がある、ということです。調整済み残差を表示してどのセルが有意なのかを見てみます。
製造業 - 多 のセルだけが絶対値で1.96より小さいですね。つまり他のセルは有意だということです。プラスのセルに着目して言うと、金融業は役員数が多い会社が多い、製造業は役員数が中くらいの会社が多い、非製造業は役員数が少ない会社が多い、ということですね。私の勘ですが、役員数の多い少ないは、企業の規模と関連していて金融業が一番企業規模が大きく、次いで製造業、非製造業が企業規模が小さいのでこのような結果になるのでは、と思います。
今回は以上です。