Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI の National Poll in Health Aging (NPHA) のデータの分析 9 - ランダムフォレストで予測する

(Bing Image Creator で生成: プロンプト: Close up of lotus flowers, which are real, photo)

www.crosshyou.info

の続きです。

今回は、randomForestパッケージで、ランダムフォレストで予測してみます。

まず、パッケージを読み込みます。

モデルをフィットさせます。

nodesize, maxnodes, ntree はパラメータですが、適当に設定しました。

df_test のデータを予測します。

結果をみてみましょう。

正解率は、(33 + 5) / (33 + 5 + 26 + 5) = 53.6% でした。

ランダムフォレストは一般に予測精度が高いと言われていますが、今回はそれほどでもありませんでした。

今回は以上です。

はじめから読むには、

www.crosshyou.info

です。

今回のコードは以下になります。

# Random Forest
#
# randomForestの読み込み
library(randomForest)
#
# モデルをフィット
set.seed(123)
rf_model <- randomForest(factor(healthy) ~ ., data = df_train,
                         nodesize = 4, maxnodes = 200,
                         ntree = 1000)
#
# df_testの予測
rf_pred <- predict(rf_model, df_test)
#
# 結果
table(rf_pred, df_test$healthy)
#
# 正解率
(34 + 3) / (34 + 3 + 28 + 4)
#