Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

毎月勤労統計調査の分析1 - 基本統計量(summary関数, apply関数とsd関数)

政府統計の総合窓口、e-Statのホームページに、07月23日の新着データで、「毎月勤労統計」がありました。今回はこのデータを使って、いろいろ分析してみましょう。

f:id:cross_hyou:20180724160711j:plain

新着のところをクリックすると、こうなりました。

f:id:cross_hyou:20180724160921j:plain

この「新着」とある月次104件のところをクリックしてみます。

f:id:cross_hyou:20180724161051j:plain

2018年5月のデータが新着なのですね。クリックしてみます。

f:id:cross_hyou:20180724161207j:plain

EXCELファイルをダウンロードしてみます。

f:id:cross_hyou:20180724161337j:plain

こんな感じのかなりデータ量が豊富なファイルでした。

最終行は、なんと、6379行目でした。

このファイルの左の数列を拡大するとこうなります。

f:id:cross_hyou:20180724162435j:plain

産業のところに「TL」とあり、

規模のところに「T」「0」とあり、

性のところに「T」「M」「F」とあり、

形態のところに「T」「T」「T」「N」「P」とあります。

これらな何を意味しているのでしょうか?

「毎月勤労調査における記号の見方」というファイルがありました。

それによると、

f:id:cross_hyou:20180724162835j:plain

f:id:cross_hyou:20180724162927j:plain

f:id:cross_hyou:20180724163015j:plain

ということだそうです。

しかもこのファイル、数値データが文字列として設定されていいました。

データの区切りで数値に変更が必要でした。

あまりにもデータが多いので、産業は大分類(CからR)、事業所規模分類はT(5人以上)、性別はT(男女計)、就業形態はN(一般労働者)だけのデータで分析しようと思います。

加工したファイルはこうなりました。

f:id:cross_hyou:20180724171248j:plain

このファイルをread.csv関数で読込み、summary関数でデータの基本統計値をみてみましょう。

f:id:cross_hyou:20180724171713j:plain

summary関数では標準偏差は計算されませんから、apply関数とsd関数で標準偏差を計算しましょう。

f:id:cross_hyou:20180724172010j:plain

round関数で小数点以下2桁までの表示にしています。また、maikin[ , c(-1,-2)]としてやって、数値データでない初めの2列、業種とコードを除いています。

以上、2018年5月の毎月勤労統計データの基本統計量でした。