Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のパソコン所有数量のデータ分析9 - RのrpartパッケージでClassification

Generated by Bing Image Creator: Long view of beach and hibiscus flowers, photo, blue sky and white cloud

www.crosshyou.info

の続きです。今回は R の rpart パッケージで Classification をしてみましょう。まず、必要なパッケージの読み込みをします。

そうしたら、rpart() 関数でベースとなる tree を生成します。

ベストな水準の cp を求めます。

この cp の値で tree を剪定します。

剪定された fit_rpart をグラフであらわします。

判別は、 pc_mean が 588.29 より上か下か、work_mean が419.38 より上か下か二つの変数だけで判断しています。

この判断方式でテストデータを予測します。

実際の値と比べてみます。

正解率は、62%でした。

前々回の glmnet での正解率は、60%、前回の knn での正解率は、51%、そして今回の rpart での正解率は 62% と今回の決定木での推測が三つの中では一番成績がよかったです。

今回は以上です。

初めから読むには、

www.crosshyou.info

です。