www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の所定内給与額のデータの分析3 - 女性のほうが会議が長くなるのはわからないが、所定内給与額が低いのは確かだ。

 

www.crosshyou.info

 の続きです。

今回はR言語でヒストグラムを描きます。

一番新しい調査年度のデータで描きましょう。

dfの一番新しい調査年度はいつでしょうか?

f:id:cross_hyou:20210214163201p:plain

2018年度です。

2018年度の所定内給与額の分布状況をヒストグラムでみてみます。

f:id:cross_hyou:20210214163338p:plain

f:id:cross_hyou:20210214163358p:plain

男性のほうが高額ですね。

男女の差が統計的に有意なのかどうか検定してみます。まずは両者の分散が等しいかどうかをvar.test関数で検定します。

f:id:cross_hyou:20210214164132p:plain

p値が0.004846ですので、男性の所定内給与額の分散と女性の所定内給与額の分散は等しいとは言えません。分散が同じではないので、t.test関数ではなくて、wilcox.test関数を使います。

f:id:cross_hyou:20210214164436p:plain

p値は4.191e-16と0.05よりも小さいですので、両者の分布位置が同じという帰無仮説を棄却します。男性と女性では所定内給与額の分布位置はたしかに違うことが確認できました。

次にdf2のデータフレームを使って1日当りの所定内給与額を調べてみます。

まず、df2で一番新しい調査年度を確認します。

f:id:cross_hyou:20210214164738p:plain

2017年度が一番新しい調査年度です。2017年度の1日当りの所定内給与額のヒストグラムを描きます。

f:id:cross_hyou:20210214164918p:plain

f:id:cross_hyou:20210214164935p:plain

このヒストグラムも男性のほうが高額ですね。

この差が統計的に有意かどうか、検定します。

まず、var.test関数で分散が等しいのかどうかを確認します。

f:id:cross_hyou:20210214165352p:plain

p値が0.3807と0.05よりも大きいので、両者の分散は同じと考えてよいようです。

分散が同じときは、t.test関数で比較できます。

f:id:cross_hyou:20210214165704p:plain

p値が1.805e-11と0.05よりも小さいので、両者の平均値は同じ、という帰無仮説を棄却して、両者の平均値に違いはあるという対立仮説を採用します。

上のt.test関数ではpaired = TRUEを加えていませんでしたが、本当は、東京都の男性の1日当りの所定内給与額、女性の1日当りの所定内給与額とペアになっているデータですので、paired = TRUEを付け加えたほうがより厳密な検定になります。

f:id:cross_hyou:20210214170132p:plain

p値が 2.2e-16よりも小さいとさらに小さな値になります。

今回は以上です。

はじめから読むには、

 

www.crosshyou.info

 です。