Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別のパソコン所有数量のデータ分析8- Rのglmnetパッケージで Elastic-Net Multinomial Regression で Classification

Generated by Bing Image Creator: Beautiful close up phot, bulue tulips.
www.crosshyou.info

の続きです。今回はRのglmnetパッケージで multinomial recgression の方法で都道府県の classification を実行してみます。

まず、glmnet パッケージの読み込みをします。

glmnetでは、alpha = 0 だと Ridge Regression, alpha = 1 だと LASSO Regression, 0 ~ 1 の間の数字だと Elastic-Net Rregression になります。せっかくなので今回は一番手間のかかる Elastic-Net でやってみます。まずは、alpha を 0 ~ 1 のどの値にするかを決める必要があります。

これは、0.05 から 0.95 まで、0.05 刻みで alpha を調べようとしています。

これは、MSEを入れる箱です。

次は、 for loop で alpha の各値の MSE を計算します。

mse_list をグラフにしてみます。

一番右側の点が一番小さな MSE ですので、alpha = 0.95 が一番いいのですね。

確認します。

この best_alpha を使って推計します。

グラフにしてみます。

係数をみてみましょう。

educ_mean 大学・大学院卒者の割合と work_mean 就業時間のデータは使われないことがわかります。

このモデル式で結果を予測します。

実際の分類と比べてみます。

正解率は、(4 + 10 + 10 ) / 47 = 51% でした。

前回の knn の正解率は 60% ほどでしたので、それよりは成績は悪いですね。それでも、デタラメだったら 33% ですから、それよりはマシでした。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。