の続きです。
今回は、事業所の規模が1~4人の人数と5,000人以上の人数に注目してみます。
まず、spread関数で、1~4人の人数の列と5,000人以上の人数の列を持つデータフレームを作ります。
変数名を変更します。rename関数を使います。
smallが1~4人の事業所の人数で、largeが5,000人以上の事業所の人数です。
smallとlargeの比率も作ります。mutate関数です。
sl_ratioが比率です。最小値は0.3131, 最大値は3.2966, 平均値は1.5602, 中央値は1.3015です。
geom_histogram関数でヒストグラムを描いてみます。
bin = 30だと細かすぎのようですね。bin = 10でやってみます。
1より小さいところと3より小さいところに頂点がある、2つの頂点の分布のようです。2015年と2016年で違うかyearendとaverageで違うか、facet_grid関数で処理してみます。
どうなんでしょうか。。。yearやitemによる分布の違いは無さそうですね。
lm関数でsl_ratioをresponse variable, yearとitemをexplanatory variablesにした回帰分析モデルを作ってみます。
p-valueが0.9581ですから有意なモデルではないです。つまり、sl_ratioはyearやitemとは関連は無い、ということですね。
今回は以上です。