今回は、毎月勤労統計調査の2018年7月のデータを使って、特掲産業だけに絞ったデータフレームを作成し、分析ごっこをしてみたいと思います。
「毎月勤労統計調査における記号の見方」には「特掲産業」に分類されている産業があります。
これらの産業だけに絞り込んだデータフレームを作成して分析をしようと思います。
まずは、read.csv関数でCSVファイルに保存してるデータをR言語に読込みます。
業種コードの列で絞り込めばいいですね。
業種コードのところを見てみると、E091が40、E092が40などと絞り込まれていることがわかります。これまでの分析と同じように時給を計算してみましょう。
全データの時給と比較してみましょう。
平均値は特掲産業は2592円で全データは2661円
中央値は特掲産業は2321円で全データは2461円です。
特掲産業のほうが時給の水準は低い様子ですね。
ヒストグラムにして分布を比較してみましょう。hist関数です。
どちらも同じような分布形状ですね。
平均値に差があるか、t検定をしましょう。t.test関数を使います。
p-value = 0.1043 > 0.05 ですから、特掲産業の時給の平均値と全データの時給の平均値に有意な違いはないです。
時給に分布形状に違いがあるか、ウィルコクソン=マン・ホイットニー検定をしてみましょう。wilcox.test関数を使います。
p-value = 0.008095 < 0.05 ですから、特掲産業の時給と全データの時給では分布形状に違いがあると言えます。特掲産業のほうが時給が低い方にシフトしていますね。
残業時間比率も計算して比較してみましょう。
所定外労働時間 / 総労働時間 x 100 で残業時間比率(%)が計算できます。
特掲産業の残業時間比率の平均値は、6.922%、中央値は6.670%
全データの残業時間比率の平均値は、7.201%、中央値は7.130%です。
全データのほうが残業時間比率は高いようですね。
ヒストグラムで分布を見てみましょう。hist関数です。
特掲産業のほうが残業時間比率が小さい区分が多いような印象です。
平均値に差があるか、t検定でみてみましょう。t.test関数です。
p-value = 0.03341 < 0.05 ですから、特掲産業の残業時間比率と全データの残業時間比率では、その2つの平均値には有意な差があります。特掲産業のほうがあんまり残業しないということですね。
分布の位置に違いがあるか検定しましょう。ウィルコクソン=マン・ホイットニー検定をします。wilcox.test関数です。
p-value = 0.01024 < 0.05 ですから、特掲産業と全データでは、残業時間比率の分布位置に違いがあります。特掲産業のほうが残業時間比率が小さいほうに分布が多いということですね。