今回は、上の画像、UCI Machine Learning Repositoryの中にあった、Real Estate valuation data setのデータを分析しようと思います。
URLは、
https://archive.ics.uci.edu/ml/datasets/Real+estate+valuation+data+set
です。
Citation requestが
Yeh, I. C., & Hsu, T. K. (2018). Building real estate valuation models with comparative approach through case-based reasoning. Applied Soft Computing, 65, 260-271.
とあったので記載しておきます。
台湾の台北市の不動産価格のデータです。
Excelファイルはこんな感じです。
変数の説明は、
The inputs are as follows
X1=the transaction date (for example, 2013.250=2013 March, 2013.500=2013 June, etc.)
X2=the house age (unit: year)
X3=the distance to the nearest MRT station (unit: meter)
X4=the number of convenience stores in the living circle on foot (integer)
X5=the geographic coordinate, latitude. (unit: degree)
X6=the geographic coordinate, longitude. (unit: degree)
The output is as follow
Y= house price of unit area (10000 New Taiwan Dollar/Ping, where Ping is a local unit, 1 Ping = 3.3 meter squared)
とありました。X1からX6の6個の変数からY、不動産価格を回帰分析するのですね。
R言語のread.csv関数でデータを読み込みます。
変数名が長いので、X1, X2と短くしましょう。
summary関数でNAがあるか見てみましょう。
NAはないようです。
今回は以上です。