Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

全国主要都市の第1次、第2次、第3次産業就業者数のデータ分析５ - 東京23区かどうかは人口密度と1人当り課税所得を見ればわかる。

データ分析

www.crosshyou.infoの続きです。

今回は、R言語のglm関数でロジスティクス回帰分析をして、東京23区かそうじゃないかを見分けようと思います。

f:id:cross_hyou:20200521122638j:plain

predict関数で予測をして、table関数で実際の値と比較してみます。

f:id:cross_hyou:20200521123326j:plain

予測で1と予測したのが23区です。1と1のところが23となっていますからパーフェクトに予測していますね。

glm1のモデルからRatio1を削除してみましょう。

f:id:cross_hyou:20200521123542j:plain

f:id:cross_hyou:20200521123631j:plain

anova関数でglm1とglm2を比較してみましたが、両者に有意な違いはないようです。

glm2モデルで予測してみます。

f:id:cross_hyou:20200521123753j:plain

glm2モデルでもパーフェクトに予測しています。

Ratio2も削除してみます。

f:id:cross_hyou:20200521123914j:plain

glm2とglm3をanova関数で比較します。

f:id:cross_hyou:20200521124006j:plain

Pr(>Chi)が0.998と0.05よりも大きいので、glm2とglm3に有意な違いはないようです。

glm3で予測してみます。

f:id:cross_hyou:20200521124142j:plain

glm3もパーフェクトですね。人口密度と1人当りの課税所得のデータがあれば東京23区かどうか判定できるということですね。

さらに、logperIncも削除してみます。

f:id:cross_hyou:20200521130532j:plain

anova関数でglm3とglm4を比較します。

f:id:cross_hyou:20200521130641j:plain

Pr(<Chi)が2.655e-06と0.05よりも小さいです。glm3とglm4は有意な違いがあります

glm4で予測してみましょう。

f:id:cross_hyou:20200521130808j:plain

あら、予測は23区ではないと予測したけど実際は23区だったのが1つ、予測は23区と予測したけど実際は23区ではないのが3つと合計4つ間違えてしまいました。logperIncは削除してはダメだったということですね。

AIC関数でいままでのモデルを比較します。

f:id:cross_hyou:20200521131057j:plain

AICは値が小さいほうがいいので、glm3が一番いいモデルですね。

f:id:cross_hyou:20200521131211j:plain

logMitsuとlogperIncがexplanatory variablesのモデルです。

このモデルを使って、全データで予測してみます。

f:id:cross_hyou:20200521131545j:plain

間違ったのは29個です。正解率は約96%でした。

今回は以上です。