Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の消費者物価指数・教養娯楽のデータの分析7- R言語のrpart関数でRegression Tree(決定木分析)をする

 

www.crosshyou.info

 の続きです。

今回はR言語のrpart関数でregression tree分析をしてみます。

まず、rpartパッケージの読み込みをします。

f:id:cross_hyou:20210504073655p:plain

rpart関数でregression treeモデルを作成します。

f:id:cross_hyou:20210504073851p:plain

plot関数とtext関数で結果を見てみます。

f:id:cross_hyou:20210504075631p:plain

f:id:cross_hyou:20210504075641p:plain

決定木のグラフは左がYes, 右がNoです。

始めに、diff_popが-5500より小さいかどうかを判断して、小さいとdiff_gorakuは--11.64だと判定しています。次にdiff_gdpが-323600より大きいかを判断して、大きくないと-8.25と判定しています。最後にdiff_gdp_popが-.006546よりも大きいかを判断して、大きいと-10.4で小さいと-9.533と判定しています。

diff_popが一番初めの判定で使われているので、この変数が一番重要だとわかります。

重要度を図示した棒グラフを描きます。

f:id:cross_hyou:20210504080339p:plain

f:id:cross_hyou:20210504080353p:plain

どの変数が重要なのかというデータは、$variable.omportanceという名前で格納されています。barplot関数で棒グラフにしました。

今回は以上です。

次回は

 

www.crosshyou.info

 です。

はじめから読むには、

 

www.crosshyou.info

 です。