www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の被服及び履物費のデータの分析１ - R言語にCSVファイルのデータを読み込む。

データ分析

UnsplashのNico Knaackが撮影した写真

今回は、都道府県別の被服及び履物費のデータを分析してみようと思います。

データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。

被服及び履物費を被説明変数として、人口密度や15~64歳人口割合、1人当たり県民所得を説明変数にしようと思いますので、一緒にダウンロードします。

こんな感じのCSVファイルをダウンロードしました。このファイルをR言語に取り込んで分析します。

まずは、library()関数を使ってtidyverseライブラリを読み込んでおきます。

read_csv()関数でCSVファイルを読み込みます。

glimpse()関数でデータが読み込まれているかどうかみてみます。

yearとprefが文字化けしています。何故か日本語のCSVファイルを読み込むと文字化けしてしまうんですよね。。とりあえず、1. year_codeを4桁の西暦に直す。2. yearとprefを削除する。この２つをmutate()関数とselect()関数を使って実行します。

うまくいったかglimpse()関数で見てみます。

うまくいきました。

次に、あらかじめ用意してある下図のようなCSVファイルを読み込みます。

これはcodeと英語の都道府県名があるCSVファイルです。東日本なら1のダミー変数、east, 東京都、大阪府、愛知県、千葉県、埼玉県、神奈川県なら1をとるダミー変数のbig6, 海が無い県なら1をとるダミー変数のnoseaという変数もついています。

そうしたら、dfのpref_codeとpref_codeのcodeを鍵にして結合します。inner_join()関数を使います。

glimpse()関数で結果を確認します。

うまくいきました。

つぎは、wear_shoeのデータが無い行をfilter()関数を使って削除します。

glimpse()関数を使って結果を確認します。

pref_codeはもう必要ないので削除して、year_codeという変数名をyearに変更して、変数の表示順を並び替えます。select()関数とrename()関数を使います。

summary()関数で各変数の基本統計値をみてみます。

year: 調査年は1975が最小で2007が最大です。およそ30年間のデータがありますね。

pref: 都道府県名はlength:1551と表示されていますので、このデータフレームは1551の行があることがわかります。

wear_shoe: 被服及び履物費(円)の最小値は6518円、最大値は30969円、平均値は18452円です。NAはありません。

mitsudo: 可住面積1km2当たり人口密度(人)の最小値は251.2人、最大値は9200.9人、平均値は1334.2人です。NAはありません。

wariai: 15~64歳の人口の割合(%)の最小値は58.90%、最大値は69.40%、平均値は63.65%です。NAが1410あります。

percapita17: 平成17年基準の1人当たり県民所得(千円)の最小値は203万9千円、最大値は526万6千円、平均値は282万4千円です。NAは1222個あります。

percapita23: 平成23年基準の1人当たり県民所得(千円)の最小値は200万3千円、最大値は596万6千円、平均値は283万5千円です。NAは1457個あります。

east: 東日本なら1を取るダミー変数で平均値は0.5106です。NAはありません。

big6: Tokyo, Osaka, Aichi, Chiba, Saiatama, Kanagwaなら1を取るダミー変数で平均値は0.1277です。NAはありません。

nosea: 海無し県なら1を取るダミー変数で平均値は0.1702です。NAはありません。

以上で、分析する準備が整いました。

今回は以上です。

次回は、

www.crosshyou.info

です。