Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI の Letter Recognition のデータの分析2 - R でロジスティクス回帰分析をして D と U を判別。正解率は 99.57%

Bing Image Creator で生成: landscape, long view, flowers of Agapanthus, blue sky, white clouds, photo 

www.crosshyou.info

の続きです。

前回は U と D だけのデータフレームを作成しました。各変数の差を計算すると、X12 や X14 が違いが大きかったですね。

この X12 と X14 で散布図を描いてみます。

けっこうはっきりと D と U は区別できそうですね。

tidymodels パッケージを読み込んで、ロジスティクス回帰で分類してみます。

library() 関数で tidymodels パッケージを読み込みました。

次は、glm のロジスティクス回帰モデルを生成します。

glm をエンジンにしたロジスティクス回帰は、ハイパーパラメータはありません。

続いて、レシピを生成します。

step_normalize(all_predictors()) で説明変数をすべて標準化するようにしました。

モデルとレシピを合わせて、ワークフローを生成します。

fit() 関数でロジスティクス回帰モデルの係数を決定します。

この推計された係数から X1 を予測します。predict() 関数を使います。

実際の結果と予測結果を比較してみましょう。

正解率は、(802 + 809) / (802 + 809 + 3 + 4) = 0.9956737 となりました。

99.57% という非常に高い正解率でした。

今回は以上です。

次回は

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。