の続きです。
今回は、業種別の操業率を見てみようと思います。
まずは、どんな業種があるかを確認しましょう
左上の ’ みたいなのと、業種(2007年-)というおかしなものが0で残っていますね。。
削除してみましょう。0で要素は無いですから、as.charracter関数で文字列に変換してからfactor関数でファクターに再変換するといいでしょう。
これで準備完了です。
まず、select関数で業種、合計、操業中の列を選択し、group_by関数で業種にまとめ、summarize関数で業種別の合計、操業中の合計値を出し、mutate関数で操業率を計算する、という手順かな?やってみます。
select関数で業種、合計、操業中だけにしました。
group_by関数を実行すると、# A tibble: 261 x 3 の行の次に、# Groups: 業種[29]という行が加わりました。
summarize関数で合計、操業中をsum関数で合計値を処理し、合計値を求めました。
# A tibble: 29 x 3 となっています。
こうなりました。運輸業は操業率は94.2%, その他の非製造業の操業率は85.0%とわかりました。年度による操業率のバラツキよりも、業種による操業率のバラツキのほうが大きいですね。全29業種を見てみましょう。まず、この 29 x 4のtibbleを名前を付けて保存しましょう。
tbl_g という名前で保存しました。業種不明というのがありますね。
これを削除しましょう。filter関数で削除できますね。
# A tibble: 28 x 4 となりましたので、業種不明が削除されてることがわかりますね。
arrange関数を使って合計の大きい順に並び替えてみます。print関数を使って28業種全部表示しましょう。print(n = 28)とするとtibbleでも28行全部表示できます。
合計が一番多いのは当たりまえですが、非製造業が24922、製造業が5442と非製造業が断然多いですね。鉄鋼が一番少ないです。でも外資系の鉄鋼があるとは意外でした。
操業率の高い順に並び替えてみます。
非鉄金属が一番の操業率で、その他の非製造業が一番低く、不動産業が2番目に低いことがわかりました。
今回は以上です。
次回は
です。