今回は、毎月勤労統計調査の分析をしたいと思います。
以前にもこの統計は分析したことがあるので、2回目です。
e-Stat(政府統計の総合窓口)のサイトを訪問したら、毎月勤労統計が新着でありました。
クリックしてみました。
「毎月勤労統計調査全国調査は、日本標準産業分類に基づく16大産業に属する常用労働者5人以上の事業所を対象に、賃金、労働時間及び雇用の変動を毎月把握する調査です。調査対象事業所は、常用労働者5人以上の約190万事業所(経済センサス-基礎調査)から抽出した約33,000事業所で、名目賃金(現金給与総額)や実質賃金、所定内及び所定外労働時間などがわかります。調査の結果は、景気動向を判断するための指標の一つとなっているほか、厚生労働政策や経済政策の基礎資料、企業の労働条件決定の際の参考資料として幅広く活用されています。」とのことです。
データのExcelファイルはこんなものでした。
これをデータ分析しやすいように加工したCSVファイルがこちらです。
規模、性別、形態を記号ではなくてわかりやすくしました。2018年7月のデータです。
このCSVファイルをread.csv関数でR言語に読込んで分析しましょう。
head関数で始めの6行のデータを表示しています。summary関数で要約統計量を表示しています。
規模は、100-499人が5、1000人以上が5とそれぞれの規模が5個ずつデータを持っていいるようですね。table関数でどのような規模があるか見てみます。
5人以上、30人以上、500人以上、1000人以上という「以上」で区別する分け方と、5-29人、30-99人、100-499人、500-999人というレンジで区別する分け方が混在しています。
性別は、男女計、男、女、NAと4種類です。NAというのは形態が一般とパートの分です。なので、性別と形態の組み合わせは、男女計&合計、男&合計、女&合計、NA&一般、NA&パートの5種類です。これと規模が8種類あるので、5 x 8 = 40のデータ行数ということですね。
現金給与総額を見ると、最小値は9万2196円、最大値は82万3642円です。
総労働時間は、最小値は80.3時間、最大値は173.6時間です。
summary関数は標準偏差を表示しないので、apply関数とsd関数で標準偏差を計算しましょう。
apply関数とsd関数で計算した標準偏差をdatasdという箱に入れて、round関数で小数点以下2桁表示しました。na.rm=TRUEというのを付け加えてNAがあっても標準偏差を計算するようにしています。na.rm=TRUEを付けないとエラーになってしまいます。
標準偏差を平均値で割った変動係数も計算しましょう。
apply関数とmean関数で平均値を計算してから、標準偏差を計算した平均値で割って変動係数を計算しています。
データのバラツキが一番小さいのは、出勤日数ですね。バラツキが一番大きいのは6月と7月の労働者数ですね。