都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析５ - R言語のcaretパッケージで簡単クラシフィケーション

www.crosshyou.info

の続きです。今回はR言語でクラシフィケーション分析をしてみようと思います。

まず、caretパッケージの読み込みをします。

2019年と2020年のデータをトレーニング用のデータ、2021年のデータをテスト用のデータにします。

indu: 製造業か、卸売小売業かを被説明変数にして、wageとopを説明変数にしてクラシフィケーション分析をしましょう。

分析する前にwage, op, induを視覚化します。

この散布図を見ると、右下エリアは製造業で、左上エリアは卸売小売業が多いことがわかります。

caretパッケージのウェブページ(6 Available Models | The caret Package (topepo.github.io)を見ると、Generalized Linear Modelとk-Nearest Neighborsの2つのモデルが追加のパッケージがいらないでクラシフィケーションをできるようなので、この2つのモデルをやってみます。