Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

経済センサスの事業所に関する集計データの分析4 - R言語で1事業所当りの従業員数を調べる

 

www.crosshyou.info

 に引き続き、経済サンセスのデータをR言語で分析します。

前回までは男女比率に注目していましたが、今回は1事業所当りの従業員数を調べてみましょう。

まずは1事業所当りの従業員数の算出に必要なデータを確認しましょう。

f:id:cross_hyou:20181211171429j:plain

 

subset関数で必要な変数だけを抽出しました。

総従業者数 / 事業所数を計算して1事業所当りの従業員数を見てみましょう。

f:id:cross_hyou:20181211172130j:plain

 

order関数を使って大きい順に並び替えてみましょう。

f:id:cross_hyou:20181211172642j:plain

 

関東が人数が多いですね。2016年が12.83人です。一番少ないのは2012年の新潟で9.1人ですね。

2016年のヒストグラムを描いてみます。hist関数です。

f:id:cross_hyou:20181211174533j:plain

 

f:id:cross_hyou:20181211174546j:plain

 

subset関数で2016年の事業所当り従業員数のみのデータフレームを作成し、hist関数でヒストグラムを作成しています。ヒストグラムの引数はデータフレームでは動かず、ベクトルでないと動かないので、empl16[ , 1]としてベクトルにしています。

同じように2012年もやってみましょう。

f:id:cross_hyou:20181211175509j:plain

 

f:id:cross_hyou:20181211175521j:plain

 

う~~ん、2016年と2012年でどっちがどうなのか、わかりにくいですね。

一つの画面でヒストグラムを描いてみます。

f:id:cross_hyou:20181211220841j:plain

 

f:id:cross_hyou:20181211220859j:plain

 

こうしてみると、2012年のほうが左側に分布しているようにみえます。

それぞれの平均値や中央値をsummary関数で確認します。

f:id:cross_hyou:20181211221211j:plain

最小値、第1分位値、中央値、平均値、第3分位値、最大値すべて2016年のほうが大きい値です。

それでは、この分布位置の違いが統計的に有意かどうかをウィルコクソン=マン・ホイットニー検定をします。今回は2012年と2016年で同じ地域で比べていますので、paired = TRUEを指定します。

f:id:cross_hyou:20181211221735j:plain

 

p-value = 0.0006104 < 0.05 ですから、2012年と比較して2016年のほうが、事業所当りの従業員数は増えているといえます。

今回は以上です。

 次回は

 

www.crosshyou.info

 

です。