Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI Machine Learning Repository の Raisin のデータ分析2 - デタラメに判別したら、56%の正解率でした。

Bing Image で生成: Longview of "Shirakawa Go" summer season, photo

www.crosshyou.info

の続きです。加工したデータにもう少し手を加えます。

まず、各Feature変数を2乗した値を作ります。

これを、dfとくっつけます。

続いて、各Feature変数の交差項をつくります。

これで、Feature変数の加工はひとまず終わりにします。

dfをトレーニング用のデータとテスト用のデータに分けます。

二つのデータフレームのClassを確認します。

どちらのデータフレームも半々ぐらいでBesniとKecimenがありますね。

では、ここから判別作業に進みます。

まず、デタラメで判別したらどうなるか、つまり、テスト用のデータフレームのBesni, Kecimenの割合はトレーニング用のデータフレームと同じで、その割合でデタラメに判別します。sample()関数を使います。

実際の値と比べてみます。

正解数は、88 + 80 = 168ですね。正解率は、168 / 300 = 0.56, 56%でした。

caretパッケージのconfusionMatrix()関数を使うと、もっといろいろな指標がわかります。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。