Bing Image で生成: Longview of "Shirakawa Go" summer season, photo
の続きです。加工したデータにもう少し手を加えます。
まず、各Feature変数を2乗した値を作ります。
これを、dfとくっつけます。
続いて、各Feature変数の交差項をつくります。
これで、Feature変数の加工はひとまず終わりにします。
dfをトレーニング用のデータとテスト用のデータに分けます。
二つのデータフレームのClassを確認します。
どちらのデータフレームも半々ぐらいでBesniとKecimenがありますね。
では、ここから判別作業に進みます。
まず、デタラメで判別したらどうなるか、つまり、テスト用のデータフレームのBesni, Kecimenの割合はトレーニング用のデータフレームと同じで、その割合でデタラメに判別します。sample()関数を使います。
実際の値と比べてみます。
正解数は、88 + 80 = 168ですね。正解率は、168 / 300 = 0.56, 56%でした。
caretパッケージのconfusionMatrix()関数を使うと、もっといろいろな指標がわかります。
今回は以上です。
次回は、
です。
初めから読むには、
です。