Bing Image Creator で生成: Tropical rainforest with a big flower, photo
今回は、UCI の Breast Cancer Wisconsin (Diagnostic) のデータを R で分析してみようと思います。
Wolberg,William, Mangasarian,Olvi, Street,Nick, and Street,W.. (1995). Breast Cancer Wisconsin (Diagnostic). UCI Machine Learning Repository. https://doi.org/10.24432/C5DW2B.
569 の観測データがあって、30 の変数があるデータです。
まず、tidyverse パッケージを読み込みします。
read_csv() 関数を使ってデータを読み込みます。
元のデータファイルは、変数の名前がないので、col_names = FALSE にしています。
glimpse() 関数を使ってデータフレームの概要を見てみます。
データの説明文章を読むと、1番目の変数は、ID で、2番目の変数が被説明変数で、M だと悪性腫瘍(癌)で、Bだと良性(癌ではない)という意味で、残りの30個の変数は細胞のデータということです。NA は無いそうです。
データを分析しやすいように、
1. はじめの変数 (ID) は削除
2. 2番目の変数を M にして、M なら 1, B なら 0 のダミー変数にする
3. 説明変数を標準化する (後で対数変換するかもしれないので、最小値 1, 最大値 2 にする)
という処理をします。
summary() 関数で前処理が正しくできているか確認します。
X3 ~ X32 までの変数が最小値 1, 最大値 2 と標準化できています。
M の平均値は 0.3726 なので、このデータセットは、37.26% は M(悪性腫瘍) ということですね。
これで前処理は終わりました。
今回は以上です。
次回は、
です。