の続きです。
今回は、R言語のglm関数でロジスティクス回帰分析をしてみます。
前回作成した 、九州沖縄地方か、そうでないかという変数、kyushu_okinawaをresponse variableにして、空き家率、持ち家率、借家率をexplanatory variableにしてみます。
はじめに、as.numeric関数でkyushu_okinawaをNoなら0, Yesなら1を取る数値型に変換しました。
次にglm関数でロジスティクス回帰分析をします。
own_ratio_2018だけが有意な説明変数ですね。
一番 Pr(>|z|)の値の大きいempty_ratio_2018を削除してみます。update関数を使います。
empty_ratio_1978を削除してみます。
Intercept, own_ratio_1978, own_ratio_2018の3つでPr(>|z|)が0.05以下になりました。
predict関数でこのglm_mdel3を使って予測してみます。
さらにround関数で0か1に変換します。
table関数で本当の分類と比較してみます。
実際は0(九州沖縄ではない)でyosokuも0だったのが37、実際は1(九州沖縄)でyosokuも1だったのが4でした。
正解率は、(37+4)/47 = 87%でした。九州沖縄は福岡県、大分県、佐賀県、長崎県、熊本県、宮崎県、鹿児島県、沖縄県の8県ですから、全部九州沖縄では無いと予測すると正解率は(47-8)/47 = 83%です。4%だけglm_model3のほうが正確になったのですね。
もう少し正解率を上げたいですね。japanpacific, 日本海側と太平洋側とその他の地域という変数を加えてみましょう。
japanpacificは意味が無いようですね。
せっかくなので、predict関数で予測してtable関数で実際と比較してみましょう。
正解率は (38+4)/47 = 89%です。
最後にown_ratioの散布図を作って、九州沖縄とそれ以外で色分けしてみます。
九州沖縄の都道府県は全体的に2018年の持ち家率が低いですね。
今回は以上です。