www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCIのDry Bean Datasetのデータ分析4 - Rのlm()関数、rpartパッケージで回帰分析

Bing Image Creatorで生成:菜の花がいっぱい咲いている、月世界の写真

www.crosshyou.info

の続きです。前の2回はClassificationをrpartパッケージとglmnetパッケージを使って実行しました。今回はRegressionを実行してみます。非説明変数をroundnessにして、説明変数をShapeFactor1 ~ 4 にしてやってみましょう。

まずは、基本の線形回帰をRのlm()関数で行います。

roundnessはShapeFactor3と4に関係があるような結果です。Multiple R-squaredの値は0.533なので、roundnessの値の53%はこの回帰分析の推定式で説明できます。

predict()関数を使い、テスト用のデータで値を予測します。

plot()関数で予測結果と実際の値の散布図を描いてみます。

MSE(Mean Squared Error)を計算します。

次はrpartパッケージで決定木のモデルでやってみます。

CPとxerrorの関係をグラフでみてみます。

最適なCPの値を確認します。

この最適なCPで決定木モデルを剪定します。

では、最終的なモデルをみてみましょう。

前々回のClassificationとは違い、今回はかなり枝分かれした木になりました。

このモデルで予測してみます。

予測結果と実際の値の散布図を描きます。

MSEを計算します。

lm()関数での予測のほうが正確な予測でした。

今回は以上です。

初めから読むには、

www.crosshyou.info

です。