Photo by Wil Stewart on Unsplash
今回は都道府県別の書籍・文房具の販売金額のデータを分析しようと思います。
データは政府統計の総合窓口、e-statから取得しました。(www.e-stat.go.jp)
47都道府県を選択して、
総人口、15~64歳の男性の割合、15~64歳の女性の割合、1人当たり県民所得、書籍・文房具小売業年間商品販売額という5つのデータ項目を選択しました。
このようなCSVファイルです。
R言語でこのCSVファイルのデータを読み込みます。
まず、tidyverseパッケージの読み込みをしておきます。
read_csv()関数で読み込みます。
str()関数で読み込みできたか確認します。
問題なく読み込みできました。
na.omit()関数でNAの行を削除します。
2006年の1年間だけ、すべてのデータ項目がそろっていたのですね。
このままでは、都道府県名がわからないので、あらかじめ作成してあるCSVファイル
これを読み込んで結合します。
2つのデータフレームを結合するのはinner_join()関数を使います。
無事に結合しました。
yearとcodeはもう必要ないので削除して、1人当たりの書籍・文房具販売額を作りましょう。
これで、分析の準備はできました。各変数を確認しておきます。
pref: 都道府県名
per_shobu: 1人当たり年間書籍・文房具販売額(千円)
shobu: 年間書籍・文房具販売額(百万円)
pop: 総人口(人)
mratio: 15~64歳の男性の割合(%)
fratio: 15~64歳の女性の割合(%)
inc: 1人当たり県民所得(千円)
east: 東日本なら1、西日本なら0のダミー変数
big6: 東京都、千葉県、埼玉県、神奈川県、愛知県、大阪府なら1、そうでないなら0
nosea: 海が無ければ1、海があれば0のダミー変数
です。
今回は以上です。
次回は
です。