の続きです。
今回はrpart関数で決定木モデルをつくり、男性、女性を予測してみます。
rpartパッケージの読み込みをします。
rpart関数でモデルを作ります。
plot関数とtext関数でモデルをグラフであらわします。
wageが1082よりも小さくて、yearが3.45上だと0 すなわち女性です。
wageが1082よりも大きくてageが50.1以下で産業コードがbdejm以外のときは0.375なので女性です。
pred関数でdf_testのデータから予測値を出して、結果を見てみましょう。
正解率は
65%です。
あまりよくないですね。
caretパッケージのtrain関数でcpのパラメータを調節してみます。
値が2つしかないからclassificationなのか?って警告が出ています。
データセットをdf_train_factorのほうでやってみましょう。
こんどは警告が出ないです。どのcpが一番いいのかplot関数でみてみます。
0.03あたりが一番いいようです。
plot関数とtext関数でモデルを視覚化します。
使われている変数は、wage, year, ageの3つです。
confusionMatrix関数で結果の表と正解率をみてみます。
正解率は79%でした。
今回は以上です。
次回は
です。
はじめから読むには、
です。