今回は国税局別の民間給与実態調査のデータを分析してみます。
いつものように、政府統計の総合窓口(www.e-stat.go.jp)からデータを取りました。
データベースのほうをクリックしました。
年次をクリックします。
2016年をクリックします。
たくさん種類がありましたが、今回は【参考】国税局別表 第1表 を選択しました。DBのところをクリックします。
こういうデータでした。人数のデータのようです。ダウンロードをクリックします。
このようなポップアップが出てきました。ダウンロードをクリックします。
さらにダウンロードをクリックします。
こういうデータファイルでした。
これをcsvファイルとして保存してR言語に読み込みます。
データが10行目から始まっているので、skip = 9 として始めの9行は無視しています。
データが無いところは、***か-なので、na.strings = c("***", "-")として***と-はNAにするようにしています。ファイルのエンコードがUTF-8なので、encoding = "UTF-8"としています。
str関数でファイルが読み込まれているかどうか見てみます。
うまく読み込まれたようです。変数名を修正しましょう。
もう一度、str関数で確認します。
変数名が変わりました。
year, item, kibo, xは数値データではないので、ファクター型に変換します。
as.factor関数でファクター型に変換しています。
また、str関数でファクター型に変換されているかみてみます。
x は全部NAなので、必要ないです。削除します。
str関数で見てみます。
xがなくなっています。
yearは2015年と2016年の2つですね。
itemは2つですが、長い文字列なので、全部でてないですね。
levels関数で確認してみます。
12月末の人数と年間平均の人数です。yearendとaverageに変更しましょう。
table関数で各要素が何個あるか数えました。両方とも18個ありました。
kiboのlevelも確認します。
これは事業所の人数の規模です。ordered関数でlevelの順番を変更しましょう。
summary関数で各データのサマリーを見てみます。
これで分析のためのデータフレームが整いました。
今回は以上です。