の続きです。
前回作成した、sl_latio(5,000人以上の規模の事業所の人数と1~4人の規模の事業所の人数の比率)の棒グラフ描いてみます。ggplot2パッケージのgeom_bar関数を使いました。
金沢、高松の比率が高く、東京の比率が低いことがわかります。東京には規模の大きな事業所が多いからでしょうね。
cor関数で、人数とsl_ratioの相関係数を見てみます。
smallが1~4人の事業所の人数、largeが5000人以上の事業所の人数です。どちらもsl_ratioとの相関係数はマイナスです。
人数の多いところのほうがsl_ratioは低くなることがわかります。
sl_ratioと人数の関係を見るために、smallとlargeを合計した変数を作ります。
mutate関数でtotalという名前の変数をdf_kiboのデータフレームに追加しました。
このtotalとsl_ratioの散布図を描いてみます。geom_point関数を使いました。
totalの値が大きい国税局と小さい国税局で差が大きいので、scale_x_continous関数を使ってtotalを対数変換して散布図を描きます。
このほうがわかりやすいですね。
geom_pointのかわりに、geom_labelを使って国税局名を表示して散布図を描きます。
全国を除外してみましょう。
こうしてみると、沖縄が特殊だとわかりますね。
今回は以上です。