Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の工場立地動向調査のデータの分析7 - LASSO回帰分析による判別

Bing Image Creator で生成: Closeup of flowering Dianthus, Winter season, small fire, photo

www.crosshyou.info

の続きです。

前回は決定木モデルで判別しました。今回はLASSO回帰によるモデルで判別してみます。glmnetパッケージを読み込みます。

glmnetはマトリックスオブジェクトでないと動きませんので、マトリックスを生成します。前回の決定木モデルの経験から、kensuなどの説明変数はそのままだと判別が難しそうなので、2乗項や交差項を付け加えました。また、yearをparse_number()関数でファクターでなくて、数値データに変換しました。

さらに、各変数の値の範囲を0から1に統一します。

被説明変数のベクトルを生成します。

さあ、これで準備は整いました。cv.glmnet()関数でクロスバリデーションをしてLASSO回帰をします。

plot()関数でグラフを描いてみます。

coef()関数でモデルの係数をみてみます。

predict()関数で予測します。

さあ、実際の値と予測の値を比較してみます。

正解率を計算します。

62%でした。

デタラメ予測は27%ぐらいでしたから、倍以上の予測精度でした。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。