www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の仕事の平均時間のデータ分析1 - R言語にデータを取り込む。

f:id:cross_hyou:20210905081103j:plain

Photo by frank mckenna on Unsplash 

今回は都道府県別の仕事の平均時間のデータを分析しようと思います。

データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。

f:id:cross_hyou:20210905081306p:plain

47の都道府県を選択します。

f:id:cross_hyou:20210905081329p:plain

取得するデータは、

15~64歳人口(男)(人)

15~64歳人口(女)(人)

1人当たり県民所得(平成17年基準)(千円)

従業員300人以上の事業所の従業者割合(民営)(%)

仕事の平均時間(有業者・男)(分)

仕事の平均時間(有業者・女)(分)

です。

f:id:cross_hyou:20210905081634p:plain

このようなCSVファイルをサイトから取得しました。

これをR言語に取り込んでデータを分析していきます。

まずtidyverseパッケージの読み込みをします。

f:id:cross_hyou:20210905081928p:plain

read_csv()関数でCSVファイルを読み込みます。

f:id:cross_hyou:20210905082157p:plain

str()関数で読み込んだデータフレーム(raw_dfと名前をつけました)を確認します。

f:id:cross_hyou:20210905082405p:plain

year_codeはyearと重複するので必要ないですね。prefは文字化けしているので必要ないですね。それとNAがある行は削除してしまいましょう。

f:id:cross_hyou:20210905082727p:plain

こうして作成した作業用のデータフレーム(dfと名前つけました)をsummary()関数でみてみます。

f:id:cross_hyou:20210905082917p:plain

pref_codeは1000が北海道で47000が沖縄県なのですが、これだとよくわからないので、

あらかじめ用意してある、

f:id:cross_hyou:20210905083051p:plain

こういうファイルを読み込んで、inner_join()関数でdfと結合します。

f:id:cross_hyou:20210905083315p:plain

read_csv()関数で読み込みます。

dfのpref_codeとdf_pref_codeのcodeが共通の列名です。

f:id:cross_hyou:20210905083755p:plain

str()関数で確認します。

f:id:cross_hyou:20210905083920p:plain

うまく結合されています。

pref_codeはもう必要なので、削除して、prefを文字列型からファクター型に変更します。

f:id:cross_hyou:20210905084259p:plain

summary()関数でみてみます。

f:id:cross_hyou:20210905084438p:plain

ここで各変数を確認しておきます。

pref: 都道府県名

year: 調査年 2011年だけですね。

male: 15~64歳の男性人口(人)

female: 15~64歳の女性人口(人)

inc: 1人当たり県民所得(平成17年基準)(千円)

large: 従業員300人以上の事業所の従業者割合(民営)(%)

male_m: 仕事の平均時間(有業者・男)(分)

female_m: 仕事の平均時間(有業者・女)(分)

east: 東日本なら1、西日本なら0のダミー変数

big6: 東京都、千葉県、神奈川県、埼玉県、愛知県、大阪府なら1、その他は0

nosea: 海無し県は1、その他は0のダミー変数

です。

今回は以上です。

次回は

www.crosshyou.info

です。