Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

国税局別の民間給与実態調査のデータの分析7 - R言語のgeom_label関数を使って散布図を描く、沖縄が特殊だとわかる。

 

www.crosshyou.info

 の続きです。

前回作成した、sl_latio(5,000人以上の規模の事業所の人数と1~4人の規模の事業所の人数の比率)の棒グラフ描いてみます。ggplot2パッケージのgeom_bar関数を使いました。

f:id:cross_hyou:20201128085746p:plain

f:id:cross_hyou:20201128085806p:plain

金沢、高松の比率が高く、東京の比率が低いことがわかります。東京には規模の大きな事業所が多いからでしょうね。

cor関数で、人数とsl_ratioの相関係数を見てみます。

f:id:cross_hyou:20201128090032p:plain

smallが1~4人の事業所の人数、largeが5000人以上の事業所の人数です。どちらもsl_ratioとの相関係数はマイナスです。

人数の多いところのほうがsl_ratioは低くなることがわかります。

sl_ratioと人数の関係を見るために、smallとlargeを合計した変数を作ります。

f:id:cross_hyou:20201128090247p:plain

mutate関数でtotalという名前の変数をdf_kiboのデータフレームに追加しました。

このtotalとsl_ratioの散布図を描いてみます。geom_point関数を使いました。

f:id:cross_hyou:20201128090628p:plain

f:id:cross_hyou:20201128090642p:plain

totalの値が大きい国税局と小さい国税局で差が大きいので、scale_x_continous関数を使ってtotalを対数変換して散布図を描きます。

f:id:cross_hyou:20201128090859p:plain

f:id:cross_hyou:20201128090916p:plain

このほうがわかりやすいですね。

geom_pointのかわりに、geom_labelを使って国税局名を表示して散布図を描きます。

f:id:cross_hyou:20201128091108p:plain

f:id:cross_hyou:20201128091128p:plain

全国を除外してみましょう。

f:id:cross_hyou:20201128091308p:plain

f:id:cross_hyou:20201128091324p:plain

こうしてみると、沖縄が特殊だとわかりますね。

今回は以上です。