Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のバスのデータの分析1 - R言語でデータを読み込む。read_csv()関数やinner_join()関数などを使う。

f:id:cross_hyou:20210710081614j:plain

Photo by Boris Smokrovic on Unsplash

今回は都道府県別のバスのデータを分析してみます。

政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。

まず、47都道府県を選択します。

f:id:cross_hyou:20210710081938p:plain

選択したデータは、総人口(人)、県内総生産額(平成17年基準・百万円)、事業者(バス・

社)、旅客輸送人員(営業用・バス・千人)、就業者(運輸業・人)です。

f:id:cross_hyou:20210710083659p:plain

f:id:cross_hyou:20210710084403p:plain

サイトからダウンロードしたCSVファイルはこのようなものでした。10行目に変数名を追加しています。

year_code: 調査年コード

year: 調査年

pref_code: 地域コード

pref: 地域(都道府県名)

pop: 総人口(人)

gdp: 県内総生産(平成17年基準・百万円)

firm: 事業者(バス・社)

passenger: 旅客輸送人員(営業用・バス・人)

worker: 就業者数(運輸業・人)です。

これをR言語で分析します。

まずは、tidyverseパッケージを読み込んでおきます。

f:id:cross_hyou:20210710085414p:plain

read_csv関数でCSVファイルのデータを読み込みます。

f:id:cross_hyou:20210710085643p:plain

str()関数でデータが読み込まれたか見てみます。

yearとprefが文字化けしています。これは、どちらも日本語が入っているからだと思われます。yearは削除して、year_codeを10万を引いてから100万で割り算して西暦に直します。prefも削除して、pref_codeを基準にして英語の都道府県名のCSVファイルと合体させます。

f:id:cross_hyou:20210710090630p:plain

昔作った、下のようなCSVファイルを読み込みます。

f:id:cross_hyou:20210710090755p:plain

f:id:cross_hyou:20210710091010p:plain

このpref_codeのデータフレームを、dfとinner_join()関数で合体させます。

f:id:cross_hyou:20210710091352p:plain

eastは東日本なら1、そうでないなら0というダミー変数です。

big6は東京都、神奈川県、千葉県、埼玉県、愛知県、大阪府なら1、そうでないなら0というダミー変数です。

pref_codeはもう必要ないので削除して、変数の順番を整えましょう。

f:id:cross_hyou:20210710092132p:plain

summary()関数でdfの概要を確認します。

f:id:cross_hyou:20210710092458p:plain

gdp, firm, passenger, workerの4つの変数はNAがあります。これをどうにかしないといけないですね。

これは次回の課題としましょう。

今回は以上です。

次回は

 

www.crosshyou.info

 です。