www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

景気動向指数の長期系列データの分析１ - R言語でファイルを読み込む。ファクタ型を文字列に、文字列型を数値型にする。

データ分析

政府統計の総合窓口、www.e-stat.go.jp のサイトを見たら、

f:id:cross_hyou:20200208124222p:plain

景気動向指数が新着でありました。今回はこのデータを分析します。

f:id:cross_hyou:20200208124254p:plain

景気動向指数は、生産、雇用など様々な経済活動での重要かつ景気に敏感に反応する指標の動きを統合することによって、景気の現状把握等に資するために作成しています。とのことです。

f:id:cross_hyou:20200208124416p:plain

月次をクリックします。

f:id:cross_hyou:20200208124438p:plain

長期系列、先行系列、一致系列、遅行系列と４つありました。今回は長期系列をクリックしました。

f:id:cross_hyou:20200208124537p:plain

こういうファイルです。5行目にWareki(和暦), Year(西暦), Month(月), DI_Lead(DI先行指数), DI_C(DI一致指数), DI_Lag(DI遅行指数), CI_Lead(CI先行指数), CI_C(CI一致指数), CI_Lag(CI遅行指数), DIC_Lead(DI累積先行指数), DIC_C(DI累積一致指数), DIC_Lag(DI累積遅行指数)と私が変数名を追加しました。

これをR言語のread.csv関数で読込みます。

f:id:cross_hyou:20200208125701p:plain

str関数でデータ型を確認しました、あれ～？Wareki, Year, Monthの他は数値型でなくてファクター型になっています。おかしいですね？View関数でデータフレームを表示してみます。

f:id:cross_hyou:20200208130153p:plain

f:id:cross_hyou:20200208130203p:plain

337行目と338行目がP36.4などとPがついていたためにファクタになってしまいました。Pを取りたいので、まずは、ファクタ型を文字列型に変更します。

f:id:cross_hyou:20200208131125p:plain

for関数で4列目(DI_Lead)から12列(DIC_Lag)までを順番にas.character関数で文字列にしました。

Pという文字を削除します。

f:id:cross_hyou:20200208131806p:plain

gsub関数で"P"を""に置き換えます。この作業をfor関数で4列目から12列まで繰り返しました。tail関数で最後の数行を表示しました。Pが削除されているのがわかります。

そして、文字列型から数値型に変換します。as.numeric関数です。

f:id:cross_hyou:20200208132337p:plain

あ！DICがNAになっちゃいました。。。なんでかな？。。。","コンマがありました。これも削除しないとダメですね。

df0をdf1にするところからやり直しです。

f:id:cross_hyou:20200208132757p:plain

できました！

これでやっと分析態勢が整いましたね。

今回は以上です。