Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

賃金構造基本統計調査のデータ分析 2 - 各変数のヒストグラムを作成して、データの分布の様子を把握する

www.crosshyou.info

今回は前回、データフレームとして取り込んだ各変数がどんな様子なのかをヒストグラムを使って見てみます。

その前にとりあえず、~~~_code という変数をファクター型の変数に変えておきました。

最初は、age: 年齢のヒストグラムを作成してみます。

もともと、データをダウンロードするときに、年齢階級を30~34歳の階級と50~54歳の階級にしましたので、このようにきれいに2つのグループに分かれたヒストグラムになりました。

続いて、tenure: 勤続年数のヒストグラムです。

ヒストグラムの山が三つになっていますね。年齢階級は2つのグループなので、これはちょっと面白いですね。

次は、hour: 所定内労働時間です。

所定内労働時間は、山型の分布ですね。

次は、ext_hour: 超過実労働時間数です。残業時間ですね。

右に裾野が広がっている分布です。

次は、salary: です。「きまって支給する現金給与額」です。

これは左に大きな山があって、右に小さな山があるかたちでしょうか。

次は、wage: 所定内給与額です。

salaryと同じような分布です。ところで、salary:「きまって支給する現金給与額」とwage:「所定内給与額」の違いは何でしょうか?

調べたところ、簡単に言うと、「きまって支給する現金給与額」は総支給額で、「所定内給与額」は残業や休日手当などを除いた額ということでした。

先にすすみます。次は bonus: 年間賞与その他特別給与額です。

右の裾野が広がっている分布です。

最後は workers: 労働者数です。

summary()関数の結果を見ると、第3分位の値が124で、最大値が9606となっていますので、非常に大きな値の観測データがある、ということですね。ヒストグラムもそのことを反映して、大部分が左に集まった形状です。

これは、対数に変換したほうがよさそうです。

log10_workers のヒストグラムを描いてみます。

山型の分布になりました。workers は対数正規分布に近い分布をしていた、ということですね。今回は以上です。

はじめから読むには、

www.crosshyou.info

です。

今回のコードは以下になります。

#
# ind_code: 産業分類 コード をファクターにする
df_raw$ind_code <- factor(df_raw$ind_code)
#
# pref_code: 地域コード を 1000 で割ってからファクターにする
df_raw$pref_code <- factor(df_raw$pref_code / 1000)
#
# year_code: 時間軸コード を 1000000 で割ってからファクターにする
df_raw$year_code <- factor(df_raw$year_code / 1000000)
#
# gender_code: 性別_基本コード をファクターにする
df_raw$gender_code <- factor(df_raw$gender_code)
#
# ageclass_code: 年齢階級_基本コード をファクターにする
df_raw$ageclass_code <- factor(df_raw$ageclass_code)
#
# age: 年齢【歳】 のヒストグラム
df_raw |> 
  ggplot(aes(x = age)) +
  geom_histogram(color = "white")
#
# age のサマリー
summary(df_raw$age)
#
# tenure: 勤続年数【年】 のヒストグラム
df_raw |> 
  ggplot(aes(x = tenure)) +
  geom_histogram(color = "white")
#
# tenure のサマリー
summary(df_raw$tenure)
#
# hour: 所定内実労働時間数【時間】 のヒストグラム
df_raw |> 
  ggplot(aes(x = hour)) +
  geom_histogram(color = "white")
#
# hour のサマリー
summary(df_raw$hour)
#
# ext_hour: 超過実労働時間数【時間】 のヒストグラム
df_raw |> 
  ggplot(aes(x = ext_hour)) +
  geom_histogram(color = "white")
#
# ext_hour のサマリー
summary(df_raw$ext_hour)
#
# salary: きまって支給する現金給与額【千円】 のヒストグラム
df_raw |> 
  ggplot(aes(salary)) +
  geom_histogram(color = "white")
#
# salary のサマリー
summary(df_raw$salary)
#
# wage: 所定内給与額【千円】 のヒストグラム
df_raw |> 
  ggplot(aes(x = wage)) +
  geom_histogram(color = "white")
#
# wage のサマリー
summary(df_raw$wage)
#
# bonus: 年間賞与その他特別給与額【千円】 のヒストグラム
df_raw |> 
  ggplot(aes(x = bonus)) +
  geom_histogram(color = "white")
#
# bonus のサマリー
summary(df_raw$bonus)
#
# workers: 労働者数【十人】 のヒストグラム
df_raw |> 
  ggplot(aes(x = workers)) +
  geom_histogram(color = "white")
#
# workers のヒストグラム
summary(df_raw$workers)
#
# workers の対数変換(底数10)を作成
df <- df_raw |> 
  mutate(log10_workers = log10(workers))
glimpse(df)
#
# log10_workers のヒストグラム
df |> 
  ggplot(aes(x = log10_workers)) +
  geom_histogram(color = "white")
#
# log10_workers のサマリー
summary(df$log10_workers)
#

(冒頭のイメージ画像は、Bing Image Creator で生成しました。プロンプトは、"Close up of blue Agapanthus flowers, background is blue sky, photograph" です。)