引き続き、R言語で毎月勤労統計調査のデータを分析していきたいと思います。
データをread.csv関数で読込み、summary関数で最大値、最小値、平均値、中央値などを確認します。
とりあえず、七月末人数の多い順に並び替えてみましょうかね。order関数を使います。
「規模は5人以上、性別は男女合計、形態は合計」にデータを絞り込んでから、order関数で並び替えましょう。
data2 <- data[data$規模=="5人以上" & data$性別=="男女合計" & data$形態=="合計", ]
というコマンドで新しくdata2という「規模は5人以上かつ性別は男女合計かつ形態は合計」というデータだけのデータフレームを作成しています。
そして、data2[order(data2$七月末人数, decreasing=TRUE), ] というコマンドで七月末人数で大きい順に並びかえ、head関数で始めの20行を表示しています。このとき、c(2,4,5,6,10)と表示する列を2列目、4列目、5列目、6列目、10列目だけに指定しています。head(データフレーム, 20)としているので、始めの20のデータが表示されます。head関数は何も書かずに、head(データフレーム)だけだと始めの6行が表示されます。
一番上の調査産業計を見ると人数は約5000万人です。これだけの人数が日本では働いているということですね。
実際の業種ごとで見ると、1番目が、卸売小売で937万人ですね。2番目が製造業で808万人、3番目が763万人です。次が小売で609万人です。卸売小売は937万人で小売が609万人ですから、卸売は937-609=328万人かな?と思ったら、もうちょっと下のほうに卸売328万人ってありました。こうしてみると、業種が個別業種と集約業種が混ざっているのですね。個別の業種だけに絞りこむ必要があるようです。
個別業種だけに絞り込むのは次回以降にやってみたいと思います。
今回はここまでです。