Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI の Letter Recognition のデータの分析1 - R にデータを読み込む。

Bing Image Creator で生成: Natural landscape, long beach, flowering red morning glories and yellow sunflowers, blue sky and white clouds, sunset, photo

今回は UCI の Letter Recognition のデータを分析してみようと思います。

Slate,David. (1991). Letter Recognition. UCI Machine Learning Repository. https://doi.org/10.24432/C5ZP40.

アルファベットの26文字を16の変数から判別する、という問題です。

まず、tidyverse パッケージを読み込みます。

read_csv() 関数で読み込みます。

glimpse() 関数で読み込んだデータをみてみます。

X1 がアルファベットの26文字で、これが被説明変数ですね。X2 ~ X17 が説明変数です。

X1 の頻度を見てみます。

U が 813 で一番多く、H が 734 で一番少ないです。 

summary() 関数で X2 ~ X17 の平均値などを確認します。

どの変数も 0 ~ 15 までの値です。

アルファベットの26文字を全部するのは難しいので、観測数の多い、U, D だけにして分析します。

filter() 関数で U と D だけのデータフレームを作成します。

D, U 別の説明変数の平均値を確認します。

両者の差を計算してみます。

X12 が差が 4.578 と一番大きいですね。その他、X13, X16 なども差が大きいです。

今回は以上です。

次回は、

www.crosshyou.info

です。