政府統計の総合窓口(e-Stat)を見てみたら、一般職国家公務員在職状況統計表といデータが新着でありました。
こういうのですね。
このデータをCSVファイルでこのように加工しました。
これをread.csv関数でR言語に読込み、分析の練習をしてみたいと思います。
このようなデータです。今回はdplyrパッケージを使ってデータ操作の練習をしてみたいと思います。
まず、tidyverseパッケージを呼び出します。
tidyverseパッケージには、ggplot2, tibble, tidyr, readr, purr, dolyr, stringr, forcatsの各パッケージが含まれています。
まずは、summarize関数で平均値を出してみます。
group_byで男女別のグループにして、行政職第1の平均人数を算出しています。年度別の平均値も算出しましょう。
こんどはfilter関数でデータを抽出してみましょう。
arrange関数で並び替えます。
行政職第1の人数ですが、男性はH27, H28, H29, H30と人数が減少しているのに対して、女性はその反対に人数が年を経るごとに増加しています。面白いですね。arrange関数ではdescをつけると降順になり、なにもつけないと昇順です。
select関数で列を選びます。
select関数は列名で選んだり、列名X:列名Yとして列名Xから列名Yまでのすべての列を選択したり、その反対に、-(列名X:列名Y)として列名Xから列名Yまでのすべての列を除外したりできます。そのほか、contains("文字列")で文字列を含む列を選択、start_with("文字列")で文字列から始まる列名を選択、end_with("文字列")で文字列で終わる列名を選択できます。
最後にsummary関数ですべての変数の平均値などを確認しておきましょう。
次回
に続きます。