今回は、小売物価統計調査のデータから、全国統一価格品目のデータを分析してみようと思います。
政府統計の藏合窓口、www.e-stat.go.jpからデータファイルをダウンロードします。
ファイルをダウンロードすると、このようなファイルです。
必要な部分だけを抜き出しました。
これを、R言語のread.csvファイルで読み込みます。
str関数でファイルが読み込まれたかどうか確認します。
問題がいくつかあります。
Codeの変数名がX.U.FEFF.Codeになっています。それと価格の変数、Y202007, Y202006, Y201907が数値型でなくて文字列になっています。
直しましょう。
まずは、変数名の修正です。names関数で直します。
なおりました。
次に、Y202007, Y202006, Y201907をas.numeric関数で数値型に直します。
数値型になりました。
次に、Y202007, Y202006, Y201907にデータが入っていない、つまりNAな品目は削除します。is.na関数と!を組み合わせます。
summary関数でNAがなくなっていることがわかります。ただ、Y201907の最小値が0というのがあります。価格が0では分析できないので、この行も削除します。
Revise、これは価格改定です。価格改定があるとデータの連続性に疑義がありますから、ReviseがNAのものだけにします。
分析に必要な項目だけにします。Item, Y202007, Y202006, Y201907だけにします。
これで前処理は終わりました。
今回は以上です。