の続きです。今回は製造業、非製造業、金融業で女性役員比率に違いがあるかどうかをR言語で確認してみます。
まずは、table関数でどんな業種があるか確認しましょう。
これは東証の33業種ですね。これを製造業、非製造業、金融業の3つのグループに区分けしたいと思います。
のサイトに33業種(これは中分類になるようです)が大分類ではどこに属するかが表示されています。
これを参考にすると
製造業は、食料品、繊維製品、パルプ・紙、化学、医薬品、石油・石炭製品、ゴム製品、ガラス・土石製品、鉄鋼、非鉄金属、金属製品、機械、電気機器、輸送用機器、精密機器、その他製品 の16業種です。
非製造業は、水産・農林業、鉱業、建設業、電気・ガス業、陸運業、海運業、空運業、倉庫・運輸関連業、情報・通信業、卸売業、小売業、不動産業、サービス業 の13業種です。
金融業は、銀行業、証券・先物取引業、保険業、その他金融業 の4業種です。
それではgsub関数を使って食料品を製造業に、繊維製品を製造業に、、と置換していきます。
まず、data$中分類とい変数を用意してから、業種をひとつひとつgsub関数で置換していきます。上の図では製造業ができました。3027社ですね。
非製造業ができました。非製造業は3958社です。
できました。金融業は354社ですね。
factor関数でdata$中分類をファクターに変換しておきましょう。
これでようやく、金融業、製造業、非製造業の業種の違いによって女性役員比率に違いがあるかどうかを調べることができます。まずは女性比率の平均値や第3分位値を調べてみましょう。tapply関数とsummary関数です。
平均値を比較すると、金融業は4.554%, 製造業は2.911%, 非製造業は4.208%です。
第3分位値を比較すると、金融業は8.333%, 製造業は5.882%、非製造業は8.333%です。製造業の女性役員比率が他と比べると低いですね。
3グループの平均の多重比較を行います。pairwise.t.test関数です。
製造業と金融業の比較では、p値が3.8e-06と0.05よりも小さいので有意な違いがあります。
金融業と非製造業では、p値は0.31と0.05よりも大きいので有意な違いはありません。
製造業と非製造業では、p値は2e-16以下と0.05よりも小さいので有意な違いがあります。
まとめると、製造業は非製造業、金融業と比較して女性役員比率が有意に低いということです。
続いて、女性役員がいるか、いないかの変数、data$wnonwとのクロス表分析をしましょう。table関数でクロス表を作成し、prop.table関数で比率を計算します。
金融業は女性役員のいる会社の比率が48%、製造業は27%、非製造業は36%です。
では、この比率の違いは統計的に有意なのかどうか、カイ自乗検定で確認しましょう。
chisq.test関数を使います。
p-value < 2.2e-16と0.05よりも小さな値です。業種の中分類と女性役員の有無は関連性がある、ということです。では、どの部分が有意な違いを生み出しているでしょうか?調整済み残差をresult5$stdresと入力して表示します。
調整済み残差は絶対値で1.96より大きいセルが有意なセルです。金融業と非製造業は女性役員のいる会社が多く、製造業は女性役員のいない会社が多いということですね。
最後は男性役員数の総計、女性役員数の総計を調べてみましょう。tapply関数とsum関数です。
金融業は男性役員は4596人、女性役員数は243人、製造業は33535人、女性役員数は1039人、非製造業は男性役員数は40926人、女性役員数は1783人です。
上図のようにmatrix関数を使ってクロス表形式にまとめました。prop.table関数で比率をだしてみましょう。
女性役員の比率は金融業が5%、製造業は3%、非製造業は4%ということです。
それでは、chisq.test関数でカイ自乗検定をしましょう。
p値は2.2e-16よりも小さいですから、有意ですね。男女の役員数と中分類の業種は関連性がある、ということです。
調整済み残差を表示しましょう。
女性役員数は金融業と非製造業が多く、製造業が少ないとわかります。
以上、製造業は金融業、非製造業と比較すると女性役員の導入が遅れていることがわかりました。
今回は以上です。
次回は
です。