Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の空き家・持ち家・借家数のデータ分析7 - R言語でロジスティクス回帰分析。glm関数

 

www.crosshyou.info

の続きです。

今回は、R言語のglm関数でロジスティクス回帰分析をしてみます。

前回作成した 、九州沖縄地方か、そうでないかという変数、kyushu_okinawaをresponse variableにして、空き家率、持ち家率、借家率をexplanatory variableにしてみます。

f:id:cross_hyou:20201112093519p:plain

はじめに、as.numeric関数でkyushu_okinawaをNoなら0, Yesなら1を取る数値型に変換しました。

次にglm関数でロジスティクス回帰分析をします。

f:id:cross_hyou:20201112094200p:plain


own_ratio_2018だけが有意な説明変数ですね。

一番 Pr(>|z|)の値の大きいempty_ratio_2018を削除してみます。update関数を使います。

f:id:cross_hyou:20201112094617p:plain

empty_ratio_1978を削除してみます。

f:id:cross_hyou:20201112094827p:plain

Intercept, own_ratio_1978, own_ratio_2018の3つでPr(>|z|)が0.05以下になりました。

predict関数でこのglm_mdel3を使って予測してみます。

f:id:cross_hyou:20201112095132p:plain

さらにround関数で0か1に変換します。

f:id:cross_hyou:20201112095337p:plain

table関数で本当の分類と比較してみます。

f:id:cross_hyou:20201112095516p:plain

実際は0(九州沖縄ではない)でyosokuも0だったのが37、実際は1(九州沖縄)でyosokuも1だったのが4でした。

正解率は、(37+4)/47 = 87%でした。九州沖縄は福岡県、大分県、佐賀県、長崎県、熊本県、宮崎県、鹿児島県、沖縄県の8県ですから、全部九州沖縄では無いと予測すると正解率は(47-8)/47 = 83%です。4%だけglm_model3のほうが正確になったのですね。

もう少し正解率を上げたいですね。japanpacific, 日本海側と太平洋側とその他の地域という変数を加えてみましょう。

f:id:cross_hyou:20201112100427p:plain

japanpacificは意味が無いようですね。

せっかくなので、predict関数で予測してtable関数で実際と比較してみましょう。

f:id:cross_hyou:20201112100723p:plain

正解率は (38+4)/47 = 89%です。

最後にown_ratioの散布図を作って、九州沖縄とそれ以外で色分けしてみます。

f:id:cross_hyou:20201112101330p:plain

f:id:cross_hyou:20201112101342p:plain

九州沖縄の都道府県は全体的に2018年の持ち家率が低いですね。

今回は以上です。