www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

国税局別の民間給与実態調査のデータの分析1 - R言語でデータを読み込む。

今回は国税局別の民間給与実態調査のデータを分析してみます。

いつものように、政府統計の総合窓口(www.e-stat.go.jp)からデータを取りました。

f:id:cross_hyou:20201121090804p:plain

f:id:cross_hyou:20201121090933p:plain

データベースのほうをクリックしました。

f:id:cross_hyou:20201121091051p:plain

年次をクリックします。

f:id:cross_hyou:20201121091200p:plain

2016年をクリックします。

f:id:cross_hyou:20201121091523p:plain

たくさん種類がありましたが、今回は【参考】国税局別表 第1表 を選択しました。DBのところをクリックします。

f:id:cross_hyou:20201121091752p:plain

こういうデータでした。人数のデータのようです。ダウンロードをクリックします。

f:id:cross_hyou:20201121092003p:plain

このようなポップアップが出てきました。ダウンロードをクリックします。

f:id:cross_hyou:20201121092114p:plain

さらにダウンロードをクリックします。

f:id:cross_hyou:20201121092338p:plain

こういうデータファイルでした。

これをcsvファイルとして保存してR言語に読み込みます。

f:id:cross_hyou:20201121092823p:plain

データが10行目から始まっているので、skip = 9 として始めの9行は無視しています。

データが無いところは、***か-なので、na.strings = c("***", "-")として***と-はNAにするようにしています。ファイルのエンコードがUTF-8なので、encoding = "UTF-8"としています。

str関数でファイルが読み込まれているかどうか見てみます。

f:id:cross_hyou:20201121093306p:plain

うまく読み込まれたようです。変数名を修正しましょう。

f:id:cross_hyou:20201121093856p:plain

もう一度、str関数で確認します。

f:id:cross_hyou:20201121094105p:plain

変数名が変わりました。

year, item, kibo, xは数値データではないので、ファクター型に変換します。

f:id:cross_hyou:20201121094900p:plain

as.factor関数でファクター型に変換しています。

また、str関数でファクター型に変換されているかみてみます。

f:id:cross_hyou:20201121095046p:plain

x は全部NAなので、必要ないです。削除します。

f:id:cross_hyou:20201121095332p:plain

str関数で見てみます。

f:id:cross_hyou:20201121095500p:plain

xがなくなっています。

yearは2015年と2016年の2つですね。

itemは2つですが、長い文字列なので、全部でてないですね。

levels関数で確認してみます。

f:id:cross_hyou:20201121095728p:plain

12月末の人数と年間平均の人数です。yearendとaverageに変更しましょう。

f:id:cross_hyou:20201121100050p:plain

table関数で各要素が何個あるか数えました。両方とも18個ありました。

kiboのlevelも確認します。

f:id:cross_hyou:20201121100403p:plain

これは事業所の人数の規模です。ordered関数でlevelの順番を変更しましょう。

f:id:cross_hyou:20201121101345p:plain

summary関数で各データのサマリーを見てみます。

f:id:cross_hyou:20201121101702p:plain

f:id:cross_hyou:20201121101642p:plain

これで分析のためのデータフレームが整いました。

今回は以上です。