一般職国家公務員在職状況統計表の分析１ - R言語のdplyrパッケージを利用してデータ操作の練習をする。

政府統計の総合窓口(e-Stat)を見てみたら、一般職国家公務員在職状況統計表といデータが新着でありました。

f:id:cross_hyou:20181105102800j:plain

f:id:cross_hyou:20181105102155j:plain

こういうのですね。

このデータをCSVファイルでこのように加工しました。

f:id:cross_hyou:20181105103128j:plain

これをread.csv関数でR言語に読込み、分析の練習をしてみたいと思います。

f:id:cross_hyou:20181105103948j:plain

このようなデータです。今回はdplyrパッケージを使ってデータ操作の練習をしてみたいと思います。

まず、tidyverseパッケージを呼び出します。

f:id:cross_hyou:20181105104244j:plain

tidyverseパッケージには、ggplot2, tibble, tidyr, readr, purr, dolyr, stringr, forcatsの各パッケージが含まれています。

まずは、summarize関数で平均値を出してみます。

f:id:cross_hyou:20181105110243j:plain

group_byで男女別のグループにして、行政職第１の平均人数を算出しています。年度別の平均値も算出しましょう。

f:id:cross_hyou:20181105110659j:plain

こんどはfilter関数でデータを抽出してみましょう。

f:id:cross_hyou:20181105111306j:plain

arrange関数で並び替えます。

f:id:cross_hyou:20181105111642j:plain

行政職第１の人数ですが、男性はH27, H28, H29, H30と人数が減少しているのに対して、女性はその反対に人数が年を経るごとに増加しています。面白いですね。arrange関数ではdescをつけると降順になり、なにもつけないと昇順です。

select関数で列を選びます。

f:id:cross_hyou:20181105112212j:plain

select関数は列名で選んだり、列名X:列名Yとして列名Xから列名Yまでのすべての列を選択したり、その反対に、-(列名X:列名Y)として列名Xから列名Yまでのすべての列を除外したりできます。そのほか、contains("文字列")で文字列を含む列を選択、start_with("文字列")で文字列から始まる列名を選択、end_with("文字列")で文字列で終わる列名を選択できます。

最後にsummary関数ですべての変数の平均値などを確認しておきましょう。

f:id:cross_hyou:20181105113008j:plain

次回

www.crosshyou.info

に続きます。