今回は男性役員数と女性役員数の比率を分析しようと思います。
いつものように、データは政府統計の総合窓口(e-Stat)から取得しています。

地域は、47都道府県です。

データは、総人口、県内総生産額、役員数(男)、役員数(女)です。

このようなCSVファイルに出力してread.csv関数でR言語に読込んで、分析します。
Statistics: An Introduction Using R
- 作者: Michael J. Crawley
- 出版社/メーカー: Wiley
- 発売日: 2014/11/24
- メディア: ペーパーバック
- この商品を含むブログを見る
こちらの本の14章、Proportion Dataを参考にしました。
まずは、str関数でデータ構造を確認しました。

いつものように、NAの行がいっぱいなので、na.omit関数で削除します。

なんとびっくり!観測が0になってしまいました。。。これではダメですね。
MaleとFemalがどのくらいあるか確認します。
もう一回、ファイルを読み直し、summary関数で確認します。

データはありますね。。どうしましょうか。。。都道府県別の各データの平均値を算出して、そのデータで分析しましょう。aggregate関数ですね。

これでできました。
参考書によると、比率データの分析では、まず、比率のベクトルを作って、散布図を描いています。やってみます。



どうなんでしょうか。。。何か総人口と比率、総生産と比率に関係性はあるのでしょうか?総人口も総生産も対数をとって散布図を描いでみます。



対数にすると、右肩上がりの関係のような気がします。
それではglm関数で分析しましょう。まず、比率データは、2つの変数を合わせたデータフレームを作る必要があるようです。cbind関数を使います。

こうしてglm関数を使います。
まずは、総人口から。

人口が多い都道府県ほど、男性比率は高いことがわかります。
次は生産額です。

生産額が多いほど、男性比率は高いです。
そうだ、一人当りの生産額でもやってみましょう。

PerProdが一人当り生産額ですが、p値は0.132なので関係ないようですね。
せっかくなので、どこの県が男性役員比率が高いか、低いかみてみましょう。

沖縄、奈良、千葉が男性の役員比率が高いですね。

徳島、栃木、熊本が男性の役員比率が低いです。
面白いことに南関東の埼玉、千葉、神奈川は男性役員比率が高く、北関東の栃木と群馬は男性役員比率が低いです。
今回は以上です。