Bing Image Creator で生成 : 風景写真、大きな入道雲と虹、ハイビスカスの花
今回は、都道府県別の自動車輸送統計調査のデータを分析してみます。
政府統計の総合窓口(e-stat)からデータを取得します。
このようなファイルです。
一般の乗合バス、高速の乗合バス、貸切バスの輸送人員と輸送人キロのデータです。
他にも一般の乗合バスと高速の乗合バスの合計や、一般の乗合バスの内訳で定期と、定期外という変数もありましたが、割愛しました。
このデータを R に読み込ませます。
まず、tidyverse パッケージを読み込んでおきます。
red_csv() 関数でCSVファイルを読み込みます。
うまく読み込まれていいるか、glimpse() 関数を使ってチェックしてみます。
うまく、読み込まれたようです。
変数を確認しておきましょう。
year: 調査年度
location: 北海道は、地域別、その他は都道府県別
general_num: 輸送人員【千人】営業用_バス(定員11人以上)_乗合_一般乗合_計
highway_num: 輸送人員【千人】営業用_バス(定員11人以上)_乗合_高速乗合
rental_num: 輸送人員【千人】営業用_バス(定員11人以上)_貸切
general_kilo: 輸送人キロ【千人キロ】営業用_バス(定員11人以上)_乗合_一般乗合_計
highway_kilo: 輸送人キロ【千人キロ】営業用_バス(定員11人以上)_乗合_高速乗合
rental_kilo: 輸送人キロ【千人キロ】営業用_バス(定員11人以上)_貸切
です。
summary() 関数で最大値などを確認しましょう。
highway_num, highway_kilo に NAが3つあります、いつでしょうか?
滋賀県がNAでした。
これらのNAは 0 にしましょう。
df_raw というオリジナルのデータフレームから、df というデータフレームをつくり、NA を 0 に置き換えました。highway_num, highway_kilo の NA がなくなって、最小値が 0 になっていることがわかります。
今回は以上です。
次回は、
です。