今回から数回は、鉄道車両生産動態統計調査からのデータを分析してみます。
データは政府統計の総合窓口(www.e-stat.go.jp)から取得しました。
ここから数回のクリックを経て、ダウンロードしたファイルはこのようなものでした。
黒い英語は、私が変数名にしようと思って追加した行です。
R言語のread.csv関数でファイルを読み込みます。
skip = 10 で11行目からデータを読み込みます。
このCSVファイルのエンコードは UTF-8 なので、encoding = "UTF-8" としています。
値の無いデータは、***, - で表示されていますから、
na.strings = c("***", "-") としています。
str関数でファイルがうまく読み込まれているか確認します。
うまく読み込まれました。prod_type, year, train_typeのデータ型をファクター型に変換します。
こんどは summary関数でファクター型に変換されているか確認します。
ファクター型に変換されています。
order_numとorder_valueの最小値がマイナスの値です。これってキャンセルということでしょうか?
いろいろデータフレームを操作したいので、tidyverseパッケージを読み込みます。
車両の数を金額のデータがありますから、車両1台当たりの金額がわかります。
mutate関数で新しい変数を作りましょう。
今回は以上です。