の続きです。
前回の分析で、仕事者比率が男性のほうが女性よりも高いことがわかりました。
これを統計学的に検定してみましょう。
下記のように、男性の平均仕事者率は0.581で女性は0.418です。
男性、女性の仕事者率の分布をヒストグラムで見てみましょう。ggplot関数のgeom_histogram関数を使ってみます。
分布の形状が山型ではなく、いくつもの小さい山が集合している感じですね。こういう場合に平均値を比較してもいいのかな?よくわからないですがやってみます。二つの平均値に差があるかどうかはt検定で、R言語ではt.test関数ですね。
まず、男性の仕事者率のベクトルを作成しましょう。
はじめにMaleという男性だけのデータセット(tibble形式)を作成して、それをもとにselect関数でMale_Workという仕事者率だけのtibbleを作成し、それをas.matrix関数でマトリックスに変換し、作成されたマトリックスをas.vector関数でベクトルに変換しました。ひとつNaNのデータがありますね。これを削除してしまいましょう。is.na関数を使います。
同じようにFemale_Workという名前で女性の仕事者率のベクトルを作成しましょう。
NaNがありますので同じようにis.na関数を使って削除します。
これで用意が整いました。t.test関数を使います。
p-value = 0.0001276 < 0.05 なので男性の仕事者率の平均値と女性の仕事者率の平均値には差があると言えます。
分布の位置に差があるかを検定しましょう。Mann-Whitney検定を用います。wilcox.test関数です。
p-value = 3.522e-06 < 0.05 ですから、男性の仕事者率の分布位置と女性の仕事者率の分布位置に違いがあるといえます。
summary関数で両者の基本統計量、var関数で分散、sd関数で標準偏差を算出しておきましょう。
今回は以上です。
次回は
です。