Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の消費者物価指数・教養娯楽のデータの分析2 - R言語のinner_join関数で2つのデータフレームを結合する

 

www.crosshyou.info

 の続きです。

f:id:cross_hyou:20210429165010p:plain

このようなCSVファイルを用意しました。今後も日本語が文字化けしてしまう事態が想定されますので、都道府県コードと英語の都道府県名を用意しました。せっかくなので、ew(東日本か西日本か)とbig3(東京都、愛知県、大阪府)なのかというデータも用意しておきました。

これをread.csv関数でR言語に読み込みます。

f:id:cross_hyou:20210429165327p:plain

str関数で確認すると、1番目の変数がX.U.FEFF.codeとおかしくなっていますので修正します。

f:id:cross_hyou:20210429165444p:plain

このpref_codeというデータフレームと前回作成しているraw_dfというデータフレームをinner_join関数で結合します。

f:id:cross_hyou:20210429165612p:plain

両方のデータフレームに共通しているprefという変数を鍵にして結合しています。

codeを1000で割って1~47の値にしたり、NAの行をna.omit関数で削除したり、ewをfactor関数でファクター型にします。

f:id:cross_hyou:20210429165913p:plain

summary関数でdfの概要を確認します。

f:id:cross_hyou:20210429170013p:plain

ここで各変数が何を表しているのか、確認しておきましょう。

 year: 調査年
 pref: 都道府県名
 pop: 総人口(人)
 gdp: 県内総生産額(2005年基準・百万円)
 cpi: 消費者物価指数・総合
 goraku: 消費者物価指数・教養娯楽
 code: 都道府県コード
 ew: 東日本(east)か西日本(west)
 big3: 東京都・愛知県・大阪府なら1, その他は0
 gdp_pop: 1人当たり県内総生産額(2005年基準・百万円)

今回は以上です。

次回は

 

www.crosshyou.info

 です。

はじめから読むには、

 

www.crosshyou.info

 です。