Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

就業構造基本調査の分析5 - R言語で男女の仕事者率の平均値・分布の位置に差があるかを検定する

 

www.crosshyou.info

 の続きです。

前回の分析で、仕事者比率が男性のほうが女性よりも高いことがわかりました。

これを統計学的に検定してみましょう。

下記のように、男性の平均仕事者率は0.581で女性は0.418です。

f:id:cross_hyou:20181128075311j:plain

男性、女性の仕事者率の分布をヒストグラムで見てみましょう。ggplot関数のgeom_histogram関数を使ってみます。

f:id:cross_hyou:20181128075831j:plain

f:id:cross_hyou:20181128075843j:plain

分布の形状が山型ではなく、いくつもの小さい山が集合している感じですね。こういう場合に平均値を比較してもいいのかな?よくわからないですがやってみます。二つの平均値に差があるかどうかはt検定で、R言語ではt.test関数ですね。

まず、男性の仕事者率のベクトルを作成しましょう。

f:id:cross_hyou:20181128080756j:plain

はじめにMaleという男性だけのデータセット(tibble形式)を作成して、それをもとにselect関数でMale_Workという仕事者率だけのtibbleを作成し、それをas.matrix関数でマトリックスに変換し、作成されたマトリックスをas.vector関数でベクトルに変換しました。ひとつNaNのデータがありますね。これを削除してしまいましょう。is.na関数を使います。

f:id:cross_hyou:20181128081729j:plain

同じようにFemale_Workという名前で女性の仕事者率のベクトルを作成しましょう。

f:id:cross_hyou:20181128082021j:plain

NaNがありますので同じようにis.na関数を使って削除します。

f:id:cross_hyou:20181128082223j:plain

これで用意が整いました。t.test関数を使います。

f:id:cross_hyou:20181128082507j:plain

p-value = 0.0001276 < 0.05 なので男性の仕事者率の平均値と女性の仕事者率の平均値には差があると言えます。

分布の位置に差があるかを検定しましょう。Mann-Whitney検定を用います。wilcox.test関数です。

f:id:cross_hyou:20181128083455j:plain

p-value = 3.522e-06 < 0.05 ですから、男性の仕事者率の分布位置と女性の仕事者率の分布位置に違いがあるといえます。

summary関数で両者の基本統計量、var関数で分散、sd関数で標準偏差を算出しておきましょう。

f:id:cross_hyou:20181128083936j:plain

f:id:cross_hyou:20181128084056j:plain

f:id:cross_hyou:20181128084247j:plain

今回は以上です。

 次回は

 

www.crosshyou.info

 

です。