Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

小売物価統計調査の全国統一価格品目のデータ分析1 - R言語でデータを読み込み、分析の前処理をする。

今回は、小売物価統計調査のデータから、全国統一価格品目のデータを分析してみようと思います。

政府統計の藏合窓口、www.e-stat.go.jpからデータファイルをダウンロードします。

e-stat.go.jpからデータを取得

ファイルをダウンロードすると、このようなファイルです。

データファイル

必要な部分だけを抜き出しました。

データファイル

これを、R言語のread.csvファイルで読み込みます。

read.csv関数でCSVファイルを読み込む

 

str関数でファイルが読み込まれたかどうか確認します。

str関数でデータの構造を確認

問題がいくつかあります。

Codeの変数名がX.U.FEFF.Codeになっています。それと価格の変数、Y202007, Y202006, Y201907が数値型でなくて文字列になっています。

直しましょう。

まずは、変数名の修正です。names関数で直します。

names関数

なおりました。

次に、Y202007, Y202006, Y201907をas.numeric関数で数値型に直します。

as.numeric関数

数値型になりました。

次に、Y202007, Y202006, Y201907にデータが入っていない、つまりNAな品目は削除します。is.na関数と!を組み合わせます。

indexを作成

summary関数でNAがなくなっていることがわかります。ただ、Y201907の最小値が0というのがあります。価格が0では分析できないので、この行も削除します。

summary関数

Revise、これは価格改定です。価格改定があるとデータの連続性に疑義がありますから、ReviseがNAのものだけにします。

summary関数

分析に必要な項目だけにします。Item, Y202007, Y202006, Y201907だけにします。

summary関数

これで前処理は終わりました。

今回は以上です。