
Bing Image Creator で生成: Wide-shot of grape fields, no human image, photo
今回は、UCI Machine Learning Repositry の Raisin のデータでクラシフィケーションをしてみたいと思います。
Çinar,İ̇lkay, Koklu,Murat, and Tasdemir,Sakir. (2023). Raisin. UCI Machine Learning Repository. https://doi.org/10.24432/C5660T.

900 x 7 のデータです。

このようなExcelファイルです。
一番右のClassがTargetで、KecimenとBesniの2種類があるようです。
まず、tidyverseパッケージを読み込みます。

read_csv()関数でデータを読み込みます。

glimpse()関数で読み込んだデータをみてみます。

UCIのサイトには、

このようにあります。NAのFeatureは無いようです。
Featureの名前を短い略称にします。rename()関数を使います。

summary()関数で統計情報をみます。

TargetのClassはBensi, Kecimenは450ずつで同数ですね。
Featureの変数はecやexは1以下なのに、arやcoは最小値でも2万以上とスケールがバラバラです。中央値と平均値を比較すると、どのFeature変数も極端な違いは無いので、対数変換はしなくてもよさそうです。
とりあえず、各Feature変数を最小値0, 最大値1の標準化を行います。

まず、minmax()という名前で標準化の関数を作成しておきます。
そうしたら、mutate_if()関数とis.numeric()関数とminmax()関数を使います。

見事にFeature変数が0から1までになりました。
今回の最後に、各Feature変数の箱ひげ図をboxplot()関数で描いてみます。


今回は以上です。
次回は、
です。