経済センサスの事業所に関する集計データの分析４ - R言語で1事業所当りの従業員数を調べる

に引き続き、経済サンセスのデータをR言語で分析します。

前回までは男女比率に注目していましたが、今回は1事業所当りの従業員数を調べてみましょう。

まずは1事業所当りの従業員数の算出に必要なデータを確認しましょう。

f:id:cross_hyou:20181211171429j:plain

subset関数で必要な変数だけを抽出しました。

総従業者数 / 事業所数を計算して1事業所当りの従業員数を見てみましょう。

f:id:cross_hyou:20181211172130j:plain

order関数を使って大きい順に並び替えてみましょう。

f:id:cross_hyou:20181211172642j:plain

関東が人数が多いですね。2016年が12.83人です。一番少ないのは2012年の新潟で9.1人ですね。

2016年のヒストグラムを描いてみます。hist関数です。

f:id:cross_hyou:20181211174533j:plain

f:id:cross_hyou:20181211174546j:plain

subset関数で2016年の事業所当り従業員数のみのデータフレームを作成し、hist関数でヒストグラムを作成しています。ヒストグラムの引数はデータフレームでは動かず、ベクトルでないと動かないので、empl16[ , 1]としてベクトルにしています。

同じように2012年もやってみましょう。

f:id:cross_hyou:20181211175509j:plain

f:id:cross_hyou:20181211175521j:plain

う～～ん、2016年と2012年でどっちがどうなのか、わかりにくいですね。

一つの画面でヒストグラムを描いてみます。

f:id:cross_hyou:20181211220841j:plain

f:id:cross_hyou:20181211220859j:plain

こうしてみると、2012年のほうが左側に分布しているようにみえます。

それぞれの平均値や中央値をsummary関数で確認します。

f:id:cross_hyou:20181211221211j:plain

最小値、第1分位値、中央値、平均値、第3分位値、最大値すべて2016年のほうが大きい値です。

それでは、この分布位置の違いが統計的に有意かどうかをウィルコクソン＝マン・ホイットニー検定をします。今回は2012年と2016年で同じ地域で比べていますので、paired = TRUEを指定します。

f:id:cross_hyou:20181211221735j:plain

p-value = 0.0006104 < 0.05 ですから、2012年と比較して2016年のほうが、事業所当りの従業員数は増えているといえます。

今回は以上です。

次回は

です。