Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

Real estate valuation data set の分析3 - R言語のboxplot関数やhist関数で各変数の分布を見る。

 

www.crosshyou.infoの続きです。

前回はデータの標準化をしました。

今回はboxplot関数で箱ひげ図、hist関数でヒストグラムを描いてみます。

 

 まずは、boxplot関数で箱ひげ図です。

boxplot関数

箱ひげ図

X3, X5, X6が外れ値があります。

X3は一番近いMRTの駅からの距離、X5は緯度、X6は経度です。

X5が緯度、X6が経度ですからX5を縦軸、X6を横軸にして散布図を描けば、それぞれの不動産の位置をプロットできますね。やってみましょう。

plot関数

不動産の位置

これに本当の地図を重ねることができたらいいんですけどね。

 

不動産価格のデータも箱ひげ図にします。

boxplot関数

不動産価格の箱ひげ図

不動産価格は価格の高いほうに外れ値があります。

hist関数でヒストグラムを描きます。

windows関数, par関数, for関数, hist関数

各変数のヒストグラム

X1は取引日です。新しい日が気持ち多い感じです。

X2は不動産の築年数、X3はMTRからの距離、X4は近くのコンビニエンスストアの数、

X5は緯度、X6は経度でした。

不動産価格のヒストグラムもみてみましょう。

hist関数

不動産価格のヒストグラム

箱ひげ図もわかるように、価格の高いほうに外れ値があります。

今回は以上です。