Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

Real estate valuation data set の分析1 - データをR言語に取り込む

f:id:cross_hyou:20200628173948p:plain

今回は、上の画像、UCI Machine Learning Repositoryの中にあった、Real Estate valuation data setのデータを分析しようと思います。

URLは、

https://archive.ics.uci.edu/ml/datasets/Real+estate+valuation+data+set

です。

Citation requestが
Yeh, I. C., & Hsu, T. K. (2018). Building real estate valuation models with comparative approach through case-based reasoning. Applied Soft Computing, 65, 260-271.

とあったので記載しておきます。

台湾の台北市の不動産価格のデータです。

Excelファイルはこんな感じです。

f:id:cross_hyou:20200628174658p:plain

変数の説明は、

The inputs are as follows
X1=the transaction date (for example, 2013.250=2013 March, 2013.500=2013 June, etc.)
X2=the house age (unit: year)
X3=the distance to the nearest MRT station (unit: meter)
X4=the number of convenience stores in the living circle on foot (integer)
X5=the geographic coordinate, latitude. (unit: degree)
X6=the geographic coordinate, longitude. (unit: degree)

The output is as follow
Y= house price of unit area (10000 New Taiwan Dollar/Ping, where Ping is a local unit, 1 Ping = 3.3 meter squared)

とありました。X1からX6の6個の変数からY、不動産価格を回帰分析するのですね。

R言語のread.csv関数でデータを読み込みます。

f:id:cross_hyou:20200628175304p:plain

変数名が長いので、X1, X2と短くしましょう。

f:id:cross_hyou:20200628175623p:plain

summary関数でNAがあるか見てみましょう。

f:id:cross_hyou:20200628175806p:plain

NAはないようです。

今回は以上です。