UnsplashのJonatan Pieが撮影した写真
の続きです。
前回はR言語のcaretパッケージで、generalized liner model regressionとk-nearest neighborsの2つの方法でクラシフィケーションをしました。
k-nnはチューニングのパラメータがありましたので、このパラメータをチューニングして、もう少し正解率を上げることができるかどうか、やってみます。
まず、plot()関数で前回のk-nnのモデルのパラメータを確認しましょう。
パラメータのkの数が、5, 7, 9 となるにつれて、Accuracyも上昇しています。
パラメータを9からスタートして増やしていきましょう。
seq()関数で、9, 11, ~~ 19, 21 までの数列を作成して、data.frame()関数でデータフレームにしています。
また、train()関数でモデルを作ります。
predict()関数で予測します。
confusionMatrix()関数で答え合わせをします。
正解率は、98.94%, 1個しか間違えませんでした。
plot()関数でパラメータをみてみます。
k = 9 のときが一番正解率が良かったようです。
今回は以上です。
初めから読むには、
です。
使用した関数は、
plot() --- モデルのパラメータをグラフにして表示
seq() --- 数列作成
data.frame() --- データフレームを作成
train() --- モデルを作成
predict() --- モデルを使って予測
confusionMatrix() --- 予測値と実際の値の答え合わせ