Bing Image Creator で生成: Natural landscape, long beach, flowering red morning glories and yellow sunflowers, blue sky and white clouds, sunset, photo
今回は UCI の Letter Recognition のデータを分析してみようと思います。
Slate,David. (1991). Letter Recognition. UCI Machine Learning Repository. https://doi.org/10.24432/C5ZP40.
アルファベットの26文字を16の変数から判別する、という問題です。
まず、tidyverse パッケージを読み込みます。
read_csv() 関数で読み込みます。
glimpse() 関数で読み込んだデータをみてみます。
X1 がアルファベットの26文字で、これが被説明変数ですね。X2 ~ X17 が説明変数です。
X1 の頻度を見てみます。
U が 813 で一番多く、H が 734 で一番少ないです。
summary() 関数で X2 ~ X17 の平均値などを確認します。
どの変数も 0 ~ 15 までの値です。
アルファベットの26文字を全部するのは難しいので、観測数の多い、U, D だけにして分析します。
filter() 関数で U と D だけのデータフレームを作成します。
D, U 別の説明変数の平均値を確認します。
両者の差を計算してみます。
X12 が差が 4.578 と一番大きいですね。その他、X13, X16 なども差が大きいです。
今回は以上です。
次回は、
です。