Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI Machine Learning Repository の Raisin のデータ分析5 - LASSO回帰による判別、正解率は83.7%

Bing Image Creator で生成: Bird's view of green grass fields, some small lakes, some woods, blue sky, white clouds, photo

www.crosshyou.info

の続きです。

今回はLASSO回帰による判別をします。使うパッケージは、glmnetパッケージです。

まず、パッケージを読み込みをします。

glmnetでは、データフレームではなく、マトリックスが必要になるので、df_train, df_testからマトリックスを生成します。

それでは、モデルをフィットします。cv.glmnet関数を使います。

plot()関数で結果をグラフにすると、以下のようになります。

モデルの係数をみてみます。

モデルで使われない変数は、. が表示されます。coex が絶対値で一番大きいですので、この変数が一番影響力がありそうです。2番目がpe2ですね。

coex, pe2の散布図を描いてみます。

coex, pe2が大きな値のものは、Besniで小さな値のものはKecimanですね。

predict()関数で予測してみます。

実際の値と比較してみます。

正解率はどのくらいでしょうか?

83.7%でした。

Confusion Matrixも作成しておきます。

今回は以上です。

次回は

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。