鉄道車両生産動態統計調査のデータ分析１ - R言語のread.csv関数でCSVファイルにあるデータを読み込む。

今回から数回は、鉄道車両生産動態統計調査からのデータを分析してみます。

データは政府統計の総合窓口(www.e-stat.go.jp)から取得しました。

f:id:cross_hyou:20201128174815p:plain

ここから数回のクリックを経て、ダウンロードしたファイルはこのようなものでした。

f:id:cross_hyou:20201128181158p:plain

黒い英語は、私が変数名にしようと思って追加した行です。

R言語のread.csv関数でファイルを読み込みます。

f:id:cross_hyou:20201128182023p:plain

skip = 10 で11行目からデータを読み込みます。

このCSVファイルのエンコードは UTF-8 なので、encoding = "UTF-8" としています。

値の無いデータは、***, - で表示されていますから、

na.strings = c("***", "-") としています。

str関数でファイルがうまく読み込まれているか確認します。

f:id:cross_hyou:20201128182358p:plain

うまく読み込まれました。prod_type, year, train_typeのデータ型をファクター型に変換します。

f:id:cross_hyou:20201128182715p:plain

こんどは summary関数でファクター型に変換されているか確認します。

f:id:cross_hyou:20201128183007p:plain

ファクター型に変換されています。

order_numとorder_valueの最小値がマイナスの値です。これってキャンセルということでしょうか？

いろいろデータフレームを操作したいので、tidyverseパッケージを読み込みます。

f:id:cross_hyou:20201128183408p:plain

車両の数を金額のデータがありますから、車両１台当たりの金額がわかります。

mutate関数で新しい変数を作りましょう。

f:id:cross_hyou:20201128183802p:plain

今回は以上です。

www.crosshyou.info