Bing Image Creator で生成: Wide-shot of grape fields, no human image, photo
今回は、UCI Machine Learning Repositry の Raisin のデータでクラシフィケーションをしてみたいと思います。
Çinar,İ̇lkay, Koklu,Murat, and Tasdemir,Sakir. (2023). Raisin. UCI Machine Learning Repository. https://doi.org/10.24432/C5660T.
900 x 7 のデータです。
このようなExcelファイルです。
一番右のClassがTargetで、KecimenとBesniの2種類があるようです。
まず、tidyverseパッケージを読み込みます。
read_csv()関数でデータを読み込みます。
glimpse()関数で読み込んだデータをみてみます。
UCIのサイトには、
このようにあります。NAのFeatureは無いようです。
Featureの名前を短い略称にします。rename()関数を使います。
summary()関数で統計情報をみます。
TargetのClassはBensi, Kecimenは450ずつで同数ですね。
Featureの変数はecやexは1以下なのに、arやcoは最小値でも2万以上とスケールがバラバラです。中央値と平均値を比較すると、どのFeature変数も極端な違いは無いので、対数変換はしなくてもよさそうです。
とりあえず、各Feature変数を最小値0, 最大値1の標準化を行います。
まず、minmax()という名前で標準化の関数を作成しておきます。
そうしたら、mutate_if()関数とis.numeric()関数とminmax()関数を使います。
見事にFeature変数が0から1までになりました。
今回の最後に、各Feature変数の箱ひげ図をboxplot()関数で描いてみます。
今回は以上です。
次回は、
です。