今回は男性役員数と女性役員数の比率を分析しようと思います。
いつものように、データは政府統計の総合窓口(e-Stat)から取得しています。
地域は、47都道府県です。
データは、総人口、県内総生産額、役員数(男)、役員数(女)です。
このようなCSVファイルに出力してread.csv関数でR言語に読込んで、分析します。
Statistics: An Introduction Using R
- 作者: Michael J. Crawley
- 出版社/メーカー: Wiley
- 発売日: 2014/11/24
- メディア: ペーパーバック
- この商品を含むブログを見る
こちらの本の14章、Proportion Dataを参考にしました。
まずは、str関数でデータ構造を確認しました。
いつものように、NAの行がいっぱいなので、na.omit関数で削除します。
なんとびっくり!観測が0になってしまいました。。。これではダメですね。
MaleとFemalがどのくらいあるか確認します。
もう一回、ファイルを読み直し、summary関数で確認します。
データはありますね。。どうしましょうか。。。都道府県別の各データの平均値を算出して、そのデータで分析しましょう。aggregate関数ですね。
これでできました。
参考書によると、比率データの分析では、まず、比率のベクトルを作って、散布図を描いています。やってみます。
どうなんでしょうか。。。何か総人口と比率、総生産と比率に関係性はあるのでしょうか?総人口も総生産も対数をとって散布図を描いでみます。
対数にすると、右肩上がりの関係のような気がします。
それではglm関数で分析しましょう。まず、比率データは、2つの変数を合わせたデータフレームを作る必要があるようです。cbind関数を使います。
こうしてglm関数を使います。
まずは、総人口から。
人口が多い都道府県ほど、男性比率は高いことがわかります。
次は生産額です。
生産額が多いほど、男性比率は高いです。
そうだ、一人当りの生産額でもやってみましょう。
PerProdが一人当り生産額ですが、p値は0.132なので関係ないようですね。
せっかくなので、どこの県が男性役員比率が高いか、低いかみてみましょう。
沖縄、奈良、千葉が男性の役員比率が高いですね。
徳島、栃木、熊本が男性の役員比率が低いです。
面白いことに南関東の埼玉、千葉、神奈川は男性役員比率が高く、北関東の栃木と群馬は男性役員比率が低いです。
今回は以上です。