Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI Machine Learning Repository の Raisin のデータ分析1 - CSVファイルを読み込み、データを加工する

Bing Image Creator で生成: Wide-shot of grape fields, no human image,  photo

今回は、UCI Machine Learning Repositry の Raisin のデータでクラシフィケーションをしてみたいと思います。

Çinar,İ̇lkay, Koklu,Murat, and Tasdemir,Sakir. (2023). Raisin. UCI Machine Learning Repository. https://doi.org/10.24432/C5660T.

900 x 7 のデータです。

このようなExcelファイルです。

一番右のClassがTargetで、KecimenとBesniの2種類があるようです。

まず、tidyverseパッケージを読み込みます。

read_csv()関数でデータを読み込みます。

glimpse()関数で読み込んだデータをみてみます。

UCIのサイトには、

このようにあります。NAのFeatureは無いようです。

Featureの名前を短い略称にします。rename()関数を使います。

summary()関数で統計情報をみます。

TargetのClassはBensi, Kecimenは450ずつで同数ですね。

Featureの変数はecやexは1以下なのに、arやcoは最小値でも2万以上とスケールがバラバラです。中央値と平均値を比較すると、どのFeature変数も極端な違いは無いので、対数変換はしなくてもよさそうです。

とりあえず、各Feature変数を最小値0, 最大値1の標準化を行います。

まず、minmax()という名前で標準化の関数を作成しておきます。

そうしたら、mutate_if()関数とis.numeric()関数とminmax()関数を使います。

見事にFeature変数が0から1までになりました。

今回の最後に、各Feature変数の箱ひげ図をboxplot()関数で描いてみます。

今回は以上です。

次回は、

www.crosshyou.info

です。