Photo by frank mckenna on Unsplash
今回は都道府県別の仕事の平均時間のデータを分析しようと思います。
データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。
47の都道府県を選択します。
取得するデータは、
15~64歳人口(男)(人)
15~64歳人口(女)(人)
1人当たり県民所得(平成17年基準)(千円)
従業員300人以上の事業所の従業者割合(民営)(%)
仕事の平均時間(有業者・男)(分)
仕事の平均時間(有業者・女)(分)
です。
このようなCSVファイルをサイトから取得しました。
これをR言語に取り込んでデータを分析していきます。
まずtidyverseパッケージの読み込みをします。
read_csv()関数でCSVファイルを読み込みます。
str()関数で読み込んだデータフレーム(raw_dfと名前をつけました)を確認します。
year_codeはyearと重複するので必要ないですね。prefは文字化けしているので必要ないですね。それとNAがある行は削除してしまいましょう。
こうして作成した作業用のデータフレーム(dfと名前つけました)をsummary()関数でみてみます。
pref_codeは1000が北海道で47000が沖縄県なのですが、これだとよくわからないので、
あらかじめ用意してある、
こういうファイルを読み込んで、inner_join()関数でdfと結合します。
read_csv()関数で読み込みます。
dfのpref_codeとdf_pref_codeのcodeが共通の列名です。
str()関数で確認します。
うまく結合されています。
pref_codeはもう必要なので、削除して、prefを文字列型からファクター型に変更します。
summary()関数でみてみます。
ここで各変数を確認しておきます。
pref: 都道府県名
year: 調査年 2011年だけですね。
male: 15~64歳の男性人口(人)
female: 15~64歳の女性人口(人)
inc: 1人当たり県民所得(平成17年基準)(千円)
large: 従業員300人以上の事業所の従業者割合(民営)(%)
male_m: 仕事の平均時間(有業者・男)(分)
female_m: 仕事の平均時間(有業者・女)(分)
east: 東日本なら1、西日本なら0のダミー変数
big6: 東京都、千葉県、神奈川県、埼玉県、愛知県、大阪府なら1、その他は0
nosea: 海無し県は1、その他は0のダミー変数
です。
今回は以上です。
次回は
です。