政府統計の総合窓口、e-Statのホームページに、07月23日の新着データで、「毎月勤労統計」がありました。今回はこのデータを使って、いろいろ分析してみましょう。
新着のところをクリックすると、こうなりました。
この「新着」とある月次104件のところをクリックしてみます。
2018年5月のデータが新着なのですね。クリックしてみます。
EXCELファイルをダウンロードしてみます。
こんな感じのかなりデータ量が豊富なファイルでした。
最終行は、なんと、6379行目でした。
このファイルの左の数列を拡大するとこうなります。
産業のところに「TL」とあり、
規模のところに「T」「0」とあり、
性のところに「T」「M」「F」とあり、
形態のところに「T」「T」「T」「N」「P」とあります。
これらな何を意味しているのでしょうか?
「毎月勤労調査における記号の見方」というファイルがありました。
それによると、
ということだそうです。
しかもこのファイル、数値データが文字列として設定されていいました。
データの区切りで数値に変更が必要でした。
あまりにもデータが多いので、産業は大分類(CからR)、事業所規模分類はT(5人以上)、性別はT(男女計)、就業形態はN(一般労働者)だけのデータで分析しようと思います。
加工したファイルはこうなりました。
このファイルをread.csv関数で読込み、summary関数でデータの基本統計値をみてみましょう。
summary関数では標準偏差は計算されませんから、apply関数とsd関数で標準偏差を計算しましょう。
round関数で小数点以下2桁までの表示にしています。また、maikin[ , c(-1,-2)]としてやって、数値データでない初めの2列、業種とコードを除いています。
以上、2018年5月の毎月勤労統計データの基本統計量でした。