国税局別の民間給与実態調査のデータの分析６ - R言語で1～4人の事業所の人数と5,000人以上の事業所の人数を計算する。

の続きです。

今回は、事業所の規模が1～4人の人数と5,000人以上の人数に注目してみます。

まず、spread関数で、1～4人の人数の列と5,000人以上の人数の列を持つデータフレームを作ります。

f:id:cross_hyou:20201123145921p:plain

変数名を変更します。rename関数を使います。

f:id:cross_hyou:20201123150227p:plain

smallが1～4人の事業所の人数で、largeが5,000人以上の事業所の人数です。

smallとlargeの比率も作ります。mutate関数です。

f:id:cross_hyou:20201123150545p:plain

sl_ratioが比率です。最小値は0.3131, 最大値は3.2966, 平均値は1.5602, 中央値は1.3015です。

geom_histogram関数でヒストグラムを描いてみます。

f:id:cross_hyou:20201123150907p:plain

f:id:cross_hyou:20201123150925p:plain

bin = 30だと細かすぎのようですね。bin = 10でやってみます。

f:id:cross_hyou:20201123151205p:plain

f:id:cross_hyou:20201123151222p:plain

1より小さいところと３より小さいところに頂点がある、２つの頂点の分布のようです。2015年と2016年で違うかyearendとaverageで違うか、facet_grid関数で処理してみます。

f:id:cross_hyou:20201123151820p:plain

f:id:cross_hyou:20201123151841p:plain

どうなんでしょうか。。。yearやitemによる分布の違いは無さそうですね。

lm関数でsl_ratioをresponse variable, yearとitemをexplanatory variablesにした回帰分析モデルを作ってみます。

f:id:cross_hyou:20201123152300p:plain

p-valueが0.9581ですから有意なモデルではないです。つまり、sl_ratioはyearやitemとは関連は無い、ということですね。

今回は以上です。