Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の書籍・文房具販売額データの分析1 - R言語でCSVファイルのデータを読み込む

f:id:cross_hyou:20210807175109j:plain

Photo by Wil Stewart on Unsplash

今回は都道府県別の書籍・文房具の販売金額のデータを分析しようと思います。

データは政府統計の総合窓口、e-statから取得しました。(www.e-stat.go.jp)

f:id:cross_hyou:20210807175248p:plain

47都道府県を選択して、

f:id:cross_hyou:20210807175312p:plain

総人口、15~64歳の男性の割合、15~64歳の女性の割合、1人当たり県民所得、書籍・文房具小売業年間商品販売額という5つのデータ項目を選択しました。

f:id:cross_hyou:20210807175541p:plain

このようなCSVファイルです。

R言語でこのCSVファイルのデータを読み込みます。

まず、tidyverseパッケージの読み込みをしておきます。

f:id:cross_hyou:20210807175903p:plain

read_csv()関数で読み込みます。

f:id:cross_hyou:20210807180235p:plain

str()関数で読み込みできたか確認します。

f:id:cross_hyou:20210807180734p:plain

問題なく読み込みできました。

na.omit()関数でNAの行を削除します。

f:id:cross_hyou:20210807180819p:plain

2006年の1年間だけ、すべてのデータ項目がそろっていたのですね。

このままでは、都道府県名がわからないので、あらかじめ作成してあるCSVファイル

f:id:cross_hyou:20210807181019p:plain

これを読み込んで結合します。

f:id:cross_hyou:20210807181226p:plain

2つのデータフレームを結合するのはinner_join()関数を使います。

f:id:cross_hyou:20210807182853p:plain

無事に結合しました。

yearとcodeはもう必要ないので削除して、1人当たりの書籍・文房具販売額を作りましょう。

f:id:cross_hyou:20210807183724p:plain

これで、分析の準備はできました。各変数を確認しておきます。

pref: 都道府県名

per_shobu: 1人当たり年間書籍・文房具販売額(千円)

shobu: 年間書籍・文房具販売額(百万円)

pop: 総人口(人)

mratio: 15~64歳の男性の割合(%)

fratio: 15~64歳の女性の割合(%)

inc: 1人当たり県民所得(千円)

east: 東日本なら1、西日本なら0のダミー変数

big6: 東京都、千葉県、埼玉県、神奈川県、愛知県、大阪府なら1、そうでないなら0

nosea: 海が無ければ1、海があれば0のダミー変数

です。

今回は以上です。

 次回は

 

www.crosshyou.info

 です。