都道府県別の所定内給与額のデータの分析１ - R言語でデータを読み込む。女性の1日当りの給与額が一番バラツキが大きい。

今回は都道府県別の所定内給与データの分析をしてみたいと思います。

データは、政府統計の総合窓口(e-stat)か取得します。

www.e-stat.go.jp

f:id:cross_hyou:20210213151508p:plain

47都道府県を選択して、

f:id:cross_hyou:20210213151700p:plain

男女別の所定内給与額と労働日数の４つのデータを選択しました。

f:id:cross_hyou:20210213152041p:plain

このようなファイルです。

これをR言語に読み込みます。

まず、tidyverseパッケージの読み込みをしておきます。

f:id:cross_hyou:20210213152522p:plain

read_csv関数でファイルを読み込みます。

f:id:cross_hyou:20210213152750p:plain

year: 調査年度

pref: 都道府県名

m_salary: 男性の所定内給与額(千円)

f_sarary: 女性の所定内給与額(千円)

m_days: 男性の労働日数

f_days: 女性の労働日数

です。

所定内給与額を労働日数で割って1日当りの給与額を算出しておきましょう。

f:id:cross_hyou:20210213153625p:plain

summary関数をつかってデータの基本統計量を確認します。

f:id:cross_hyou:20210213153740p:plain

yearやprefのlengthが2068とありますから、2068のデータ観測数があることがわかります。

m_salaryとf_salaryはNAは無いですね。m_daysなどはNAが1457ありますので、2068-1457=611個のデータですね。611/47=13ですから13年分のデータですね。

na/omit関数でNAの行をなくして、yearをファクター型に変換してしまいます。

f:id:cross_hyou:20210213154444p:plain

もういちどsummary関数を使ってみます。

f:id:cross_hyou:20210213154639p:plain

m_salaryの平均値は302.5、f_salaryの平均値は215.9とかなり差があります。

m_daysの平均値は20.12、f_daysの平均値は18.77です。

m_per_dayの平均値は15.08、f_per_dayの平均値は11.574です。

yearを見ると2005年度からデータがあるようです。

変動係数CVを求めてみます。標準偏差を平均値で割った値です。

f:id:cross_hyou:20210213155424p:plain

f_per_day_cv, つまり女性の1日当りの給与額が一番変動係数が大きいですね。一番データのバラツキが大きいということです。

m_days_cv、男性の労働日数が一番バラツキが小さいです。

今回は以上です。

次回は

です。