UnsplashのNico Knaackが撮影した写真
今回は、都道府県別の被服及び履物費のデータを分析してみようと思います。
データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。
被服及び履物費を被説明変数として、人口密度や15~64歳人口割合、1人当たり県民所得を説明変数にしようと思いますので、一緒にダウンロードします。
こんな感じのCSVファイルをダウンロードしました。このファイルをR言語に取り込んで分析します。
まずは、library()関数を使ってtidyverseライブラリを読み込んでおきます。
read_csv()関数でCSVファイルを読み込みます。
glimpse()関数でデータが読み込まれているかどうかみてみます。
yearとprefが文字化けしています。何故か日本語のCSVファイルを読み込むと文字化けしてしまうんですよね。。とりあえず、1. year_codeを4桁の西暦に直す。2. yearとprefを削除する。この2つをmutate()関数とselect()関数を使って実行します。
うまくいったかglimpse()関数で見てみます。
うまくいきました。
次に、あらかじめ用意してある下図のようなCSVファイルを読み込みます。
これはcodeと英語の都道府県名があるCSVファイルです。東日本なら1のダミー変数、east, 東京都、大阪府、愛知県、千葉県、埼玉県、神奈川県なら1をとるダミー変数のbig6, 海が無い県なら1をとるダミー変数のnoseaという変数もついています。
そうしたら、dfのpref_codeとpref_codeのcodeを鍵にして結合します。inner_join()関数を使います。
glimpse()関数で結果を確認します。
うまくいきました。
つぎは、wear_shoeのデータが無い行をfilter()関数を使って削除します。
glimpse()関数を使って結果を確認します。
pref_codeはもう必要ないので削除して、year_codeという変数名をyearに変更して、変数の表示順を並び替えます。select()関数とrename()関数を使います。
summary()関数で各変数の基本統計値をみてみます。
year: 調査年は1975が最小で2007が最大です。およそ30年間のデータがありますね。
pref: 都道府県名はlength:1551と表示されていますので、このデータフレームは1551の行があることがわかります。
wear_shoe: 被服及び履物費(円)の最小値は6518円、最大値は30969円、平均値は18452円です。NAはありません。
mitsudo: 可住面積1km2当たり人口密度(人)の最小値は251.2人、最大値は9200.9人、平均値は1334.2人です。NAはありません。
wariai: 15~64歳の人口の割合(%)の最小値は58.90%、最大値は69.40%、平均値は63.65%です。NAが1410あります。
percapita17: 平成17年基準の1人当たり県民所得(千円)の最小値は203万9千円、最大値は526万6千円、平均値は282万4千円です。NAは1222個あります。
percapita23: 平成23年基準の1人当たり県民所得(千円)の最小値は200万3千円、最大値は596万6千円、平均値は283万5千円です。NAは1457個あります。
east: 東日本なら1を取るダミー変数で平均値は0.5106です。NAはありません。
big6: Tokyo, Osaka, Aichi, Chiba, Saiatama, Kanagwaなら1を取るダミー変数で平均値は0.1277です。NAはありません。
nosea: 海無し県なら1を取るダミー変数で平均値は0.1702です。NAはありません。
以上で、分析する準備が整いました。
今回は以上です。
次回は、
です。