今回は都道府県別の所定内給与データの分析をしてみたいと思います。
データは、政府統計の総合窓口(e-stat)か取得します。
www.e-stat.go.jp
47都道府県を選択して、
男女別の所定内給与額と労働日数の4つのデータを選択しました。
このようなファイルです。
これをR言語に読み込みます。
まず、tidyverseパッケージの読み込みをしておきます。
read_csv関数でファイルを読み込みます。
year: 調査年度
pref: 都道府県名
m_salary: 男性の所定内給与額(千円)
f_sarary: 女性の所定内給与額(千円)
m_days: 男性の労働日数
f_days: 女性の労働日数
です。
所定内給与額を労働日数で割って1日当りの給与額を算出しておきましょう。
summary関数をつかってデータの基本統計量を確認します。
yearやprefのlengthが2068とありますから、2068のデータ観測数があることがわかります。
m_salaryとf_salaryはNAは無いですね。m_daysなどはNAが1457ありますので、2068-1457=611個のデータですね。611/47=13ですから13年分のデータですね。
na/omit関数でNAの行をなくして、yearをファクター型に変換してしまいます。
もういちどsummary関数を使ってみます。
m_salaryの平均値は302.5、f_salaryの平均値は215.9とかなり差があります。
m_daysの平均値は20.12、f_daysの平均値は18.77です。
m_per_dayの平均値は15.08、f_per_dayの平均値は11.574です。
yearを見ると2005年度からデータがあるようです。
変動係数CVを求めてみます。標準偏差を平均値で割った値です。
f_per_day_cv, つまり女性の1日当りの給与額が一番変動係数が大きいですね。一番データのバラツキが大きいということです。
m_days_cv、男性の労働日数が一番バラツキが小さいです。
今回は以上です。
次回は
です。