Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI Machine Learning Repository の Raisin のデータ分析3 - 決定木モデルによる判別、正解率は83%

Bing Image Creator で生成: Landscape photograph, huge rock and tiny flowers, blue sky in ancient times

www.crosshyou.info

の続きです。

今回は、rpartパッケージを使って、決定木モデルによる判別を試してみます。

まず、rpartパッケージとrpart.plotパッケージを読み込みます。

rpart()関数で初期ツリーを生成します。

初期ツリーのcptableをみてみます。

xerrorが最小のCPが最適なCPです。

最適なCPは0.006779661でした。

このCPを使って、初期ツリーを剪定します。prune()関数を使います。

rpart.plot()関数で、生成された決定木を描きます。

このグラフを解釈すると、まずmaが0.25以上のものは、全てBesniと判定します。

残ったもので、ecpeが0.16未満のものは全てKecimenと判断します。

そして、残ったもので、ececが0.48未満のものはBesni, 0.48以上のものはKecimenと判定します。

たくさん、35個のFeature変数がありましたが、この決定木モデルで使っているのは、ma, ecpe, ecexという3つだけでした。

predict()関数で、テスト用のデータから予測してみます。

実際の値と比較してみます。

前回のデタラメに判別するのと比べるとかなり、良い判定結果ですね。

正解率を計算します。

83%という正解率でした。

Confusion Matrixも生成しておきます。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。