crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

男性役員数と女性役員数の比率の分析 - R言語のglm関数で比率データの回帰分析

今回は男性役員数と女性役員数の比率を分析しようと思います。

いつものように、データは政府統計の総合窓口(e-Stat)から取得しています。

f:id:cross_hyou:20190612194503j:plain

地域は、47都道府県です。

f:id:cross_hyou:20190612194546j:plain

データは、総人口、県内総生産額、役員数(男)、役員数(女)です。

f:id:cross_hyou:20190612194649j:plain

このようなCSVファイルに出力してread.csv関数でR言語に読込んで、分析します。

 

Statistics: An Introduction Using R

Statistics: An Introduction Using R

 

 こちらの本の14章、Proportion Dataを参考にしました。

まずは、str関数でデータ構造を確認しました。

f:id:cross_hyou:20190612195004j:plain

いつものように、NAの行がいっぱいなので、na.omit関数で削除します。

f:id:cross_hyou:20190612195209j:plain

なんとびっくり!観測が0になってしまいました。。。これではダメですね。

MaleとFemalがどのくらいあるか確認します。

もう一回、ファイルを読み直し、summary関数で確認します。

f:id:cross_hyou:20190612195758j:plain

データはありますね。。どうしましょうか。。。都道府県別の各データの平均値を算出して、そのデータで分析しましょう。aggregate関数ですね。

f:id:cross_hyou:20190612200626j:plain

これでできました。

参考書によると、比率データの分析では、まず、比率のベクトルを作って、散布図を描いています。やってみます。

f:id:cross_hyou:20190612201341j:plain

f:id:cross_hyou:20190612201353j:plain

f:id:cross_hyou:20190612201408j:plain

どうなんでしょうか。。。何か総人口と比率、総生産と比率に関係性はあるのでしょうか?総人口も総生産も対数をとって散布図を描いでみます。

f:id:cross_hyou:20190612201925j:plain

f:id:cross_hyou:20190612201905j:plain

f:id:cross_hyou:20190612201939j:plain

対数にすると、右肩上がりの関係のような気がします。

それではglm関数で分析しましょう。まず、比率データは、2つの変数を合わせたデータフレームを作る必要があるようです。cbind関数を使います。

f:id:cross_hyou:20190612202247j:plain

 

こうしてglm関数を使います。

まずは、総人口から。

f:id:cross_hyou:20190612202906j:plain

人口が多い都道府県ほど、男性比率は高いことがわかります。

次は生産額です。

f:id:cross_hyou:20190612203144j:plain

生産額が多いほど、男性比率は高いです。

そうだ、一人当りの生産額でもやってみましょう。

f:id:cross_hyou:20190612203604j:plain

PerProdが一人当り生産額ですが、p値は0.132なので関係ないようですね。

せっかくなので、どこの県が男性役員比率が高いか、低いかみてみましょう。

f:id:cross_hyou:20190612204509j:plain

沖縄、奈良、千葉が男性の役員比率が高いですね。

f:id:cross_hyou:20190612204707j:plain

徳島、栃木、熊本が男性の役員比率が低いです。

面白いことに南関東の埼玉、千葉、神奈川は男性役員比率が高く、北関東の栃木と群馬は男性役員比率が低いです。

今回は以上です。