の続きです。
このようなCSVファイルを用意しました。今後も日本語が文字化けしてしまう事態が想定されますので、都道府県コードと英語の都道府県名を用意しました。せっかくなので、ew(東日本か西日本か)とbig3(東京都、愛知県、大阪府)なのかというデータも用意しておきました。
これをread.csv関数でR言語に読み込みます。
str関数で確認すると、1番目の変数がX.U.FEFF.codeとおかしくなっていますので修正します。
このpref_codeというデータフレームと前回作成しているraw_dfというデータフレームをinner_join関数で結合します。
両方のデータフレームに共通しているprefという変数を鍵にして結合しています。
codeを1000で割って1~47の値にしたり、NAの行をna.omit関数で削除したり、ewをfactor関数でファクター型にします。
summary関数でdfの概要を確認します。
ここで各変数が何を表しているのか、確認しておきましょう。
year: 調査年
pref: 都道府県名
pop: 総人口(人)
gdp: 県内総生産額(2005年基準・百万円)
cpi: 消費者物価指数・総合
goraku: 消費者物価指数・教養娯楽
code: 都道府県コード
ew: 東日本(east)か西日本(west)
big3: 東京都・愛知県・大阪府なら1, その他は0
gdp_pop: 1人当たり県内総生産額(2005年基準・百万円)
今回は以上です。
次回は
です。
はじめから読むには、
です。