Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI の Breast Cancer Wisconsin (Diagnostic) のデータ分析1 - R にデータを読み込み、分析のための前処理をする

Bing Image Creator で生成: Tropical rainforest with a big flower, photo

今回は、UCI の Breast Cancer Wisconsin (Diagnostic) のデータを R で分析してみようと思います。
Wolberg,William, Mangasarian,Olvi, Street,Nick, and Street,W.. (1995). Breast Cancer Wisconsin (Diagnostic). UCI Machine Learning Repository. https://doi.org/10.24432/C5DW2B.

569 の観測データがあって、30 の変数があるデータです。

まず、tidyverse パッケージを読み込みします。

read_csv() 関数を使ってデータを読み込みます。

元のデータファイルは、変数の名前がないので、col_names = FALSE にしています。

glimpse() 関数を使ってデータフレームの概要を見てみます。

データの説明文章を読むと、1番目の変数は、ID で、2番目の変数が被説明変数で、M だと悪性腫瘍(癌)で、Bだと良性(癌ではない)という意味で、残りの30個の変数は細胞のデータということです。NA は無いそうです。

データを分析しやすいように、

1. はじめの変数 (ID) は削除
2. 2番目の変数を M にして、M なら 1, B なら 0 のダミー変数にする

3. 説明変数を標準化する (後で対数変換するかもしれないので、最小値 1, 最大値 2 にする)

という処理をします。

summary() 関数で前処理が正しくできているか確認します。

X3 ~ X32 までの変数が最小値 1, 最大値 2 と標準化できています。

M の平均値は 0.3726 なので、このデータセットは、37.26% は M(悪性腫瘍) ということですね。

これで前処理は終わりました。

今回は以上です。

 

次回は、

www.crosshyou.info

です。