外資系企業動向調査の分析３ - R言語で業種別の操業率を見てみる。group_by関数とsummarize関数を活用

の続きです。

今回は、業種別の操業率を見てみようと思います。

まずは、どんな業種があるかを確認しましょう

f:id:cross_hyou:20190223103112j:plain

左上の　’　みたいなのと、業種(2007年-)というおかしなものが0で残っていますね。。

削除してみましょう。0で要素は無いですから、as.charracter関数で文字列に変換してからfactor関数でファクターに再変換するといいでしょう。

f:id:cross_hyou:20190223103813j:plain

これで準備完了です。

まず、select関数で業種、合計、操業中の列を選択し、group_by関数で業種にまとめ、summarize関数で業種別の合計、操業中の合計値を出し、mutate関数で操業率を計算する、という手順かな？やってみます。

f:id:cross_hyou:20190223104242j:plain

select関数で業種、合計、操業中だけにしました。

f:id:cross_hyou:20190223104524j:plain

group_by関数を実行すると、# A tibble: 261 x 3 の行の次に、# Groups: 業種[29]という行が加わりました。

f:id:cross_hyou:20190223105228j:plain

summarize関数で合計、操業中をsum関数で合計値を処理し、合計値を求めました。

# A tibble: 29 x 3 となっています。

f:id:cross_hyou:20190223105913j:plain

こうなりました。運輸業は操業率は94.2%, その他の非製造業の操業率は85.0%とわかりました。年度による操業率のバラツキよりも、業種による操業率のバラツキのほうが大きいですね。全29業種を見てみましょう。まず、この 29 x 4のtibbleを名前を付けて保存しましょう。

f:id:cross_hyou:20190223110830j:plain

tbl_g という名前で保存しました。業種不明というのがありますね。

これを削除しましょう。filter関数で削除できますね。

f:id:cross_hyou:20190223111309j:plain

# A tibble: 28 x 4 となりましたので、業種不明が削除されてることがわかりますね。

arrange関数を使って合計の大きい順に並び替えてみます。print関数を使って28業種全部表示しましょう。print(n = 28)とするとtibbleでも28行全部表示できます。

f:id:cross_hyou:20190223111713j:plain

合計が一番多いのは当たりまえですが、非製造業が24922、製造業が5442と非製造業が断然多いですね。鉄鋼が一番少ないです。でも外資系の鉄鋼があるとは意外でした。

操業率の高い順に並び替えてみます。

f:id:cross_hyou:20190223112351j:plain

非鉄金属が一番の操業率で、その他の非製造業が一番低く、不動産業が2番目に低いことがわかりました。

今回は以上です。

次回は

です。