crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

鉄道車両生産動態統計調査のデータ分析1 - R言語のread.csv関数でCSVファイルにあるデータを読み込む。

今回から数回は、鉄道車両生産動態統計調査からのデータを分析してみます。

データは政府統計の総合窓口(www.e-stat.go.jp)から取得しました。

f:id:cross_hyou:20201128174815p:plain

ここから数回のクリックを経て、ダウンロードしたファイルはこのようなものでした。

f:id:cross_hyou:20201128181158p:plain

黒い英語は、私が変数名にしようと思って追加した行です。

R言語のread.csv関数でファイルを読み込みます。

 

f:id:cross_hyou:20201128182023p:plain

skip = 10 で11行目からデータを読み込みます。

このCSVファイルのエンコードは UTF-8 なので、encoding = "UTF-8" としています。

値の無いデータは、***, - で表示されていますから、

na.strings = c("***", "-") としています。

str関数でファイルがうまく読み込まれているか確認します。

f:id:cross_hyou:20201128182358p:plain

うまく読み込まれました。prod_type, year, train_typeのデータ型をファクター型に変換します。

f:id:cross_hyou:20201128182715p:plain

こんどは summary関数でファクター型に変換されているか確認します。

f:id:cross_hyou:20201128183007p:plain

ファクター型に変換されています。

order_numとorder_valueの最小値がマイナスの値です。これってキャンセルということでしょうか?

いろいろデータフレームを操作したいので、tidyverseパッケージを読み込みます。

f:id:cross_hyou:20201128183408p:plain

車両の数を金額のデータがありますから、車両1台当たりの金額がわかります。

mutate関数で新しい変数を作りましょう。

f:id:cross_hyou:20201128183802p:plain

今回は以上です。