Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の自動車(バス)輸送統計調査のデータ分析1 - Rにデータを読み込ませる。

Bing Image Creator で生成 : 風景写真、大きな入道雲と虹、ハイビスカスの花

今回は、都道府県別の自動車輸送統計調査のデータを分析してみます。

政府統計の総合窓口(e-stat)からデータを取得します。

このようなファイルです。

一般の乗合バス、高速の乗合バス、貸切バスの輸送人員と輸送人キロのデータです。

他にも一般の乗合バスと高速の乗合バスの合計や、一般の乗合バスの内訳で定期と、定期外という変数もありましたが、割愛しました。

このデータを R に読み込ませます。

まず、tidyverse パッケージを読み込んでおきます。

red_csv() 関数でCSVファイルを読み込みます。

うまく読み込まれていいるか、glimpse() 関数を使ってチェックしてみます。

うまく、読み込まれたようです。

変数を確認しておきましょう。

year: 調査年度

location: 北海道は、地域別、その他は都道府県別

general_num: 輸送人員【千人】営業用_バス(定員11人以上)_乗合_一般乗合_計

highway_num: 輸送人員【千人】営業用_バス(定員11人以上)_乗合_高速乗合

rental_num: 輸送人員【千人】営業用_バス(定員11人以上)_貸切

general_kilo: 輸送人キロ【千人キロ】営業用_バス(定員11人以上)_乗合_一般乗合_計

highway_kilo: 輸送人キロ【千人キロ】営業用_バス(定員11人以上)_乗合_高速乗合

rental_kilo: 輸送人キロ【千人キロ】営業用_バス(定員11人以上)_貸切

です。

summary() 関数で最大値などを確認しましょう。

highway_num, highway_kilo に NAが3つあります、いつでしょうか?

滋賀県がNAでした。

これらのNAは 0 にしましょう。

df_raw というオリジナルのデータフレームから、df というデータフレームをつくり、NA を 0 に置き換えました。highway_num, highway_kilo の NA がなくなって、最小値が 0 になっていることがわかります。

今回は以上です。

 

次回は、

www.crosshyou.info

です。