Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の個人企業経済調査のデータの分析７ - R言語のglm関数でロジスティクス回帰分析をする。採用人数が多いほど、売上高が伸びる確率が高い。

データ分析

www.crosshyou.info

の続きです。

今回は、2019年から2020年へ売り上げが伸びた都道府県、減少した都道府県という2値をとるダミー変数を作ってR言語のglm関数でロジスティクス回帰分析をしてみようと思います。

まず、2値をとるダミー変数を作ります。

f:id:cross_hyou:20210320161040p:plain

前回と同じように、このchg_net_dummyと相関の強い変数を調べます。

相関係数を格納するデータフレームを作ります。

f:id:cross_hyou:20210320161207p:plain

相関係数を計算して、for関数で格納していきます。

f:id:cross_hyou:20210320161322p:plain

相関の強い変数を表示します。

f:id:cross_hyou:20210320161501p:plain

saiyouは今回も相関が強いですね。

glm関数でロジスティクス回帰分析をします。

f:id:cross_hyou:20210320161622p:plain

summary関数でモデルを詳しくみてみます。

f:id:cross_hyou:20210320161818p:plain

step関数で有意でない変数を削除します。

f:id:cross_hyou:20210320161931p:plain

anova関数でglm_1とglm_2を比較します。

f:id:cross_hyou:20210320162059p:plain

p値は0.2544なので、glm_1とglm_2に有意な違いはありません。

glm_2をsummary関数でみてみます。

f:id:cross_hyou:20210320162231p:plain

rishokuのp値は0.1239と0.05よりも高いです。update関数で削除します。

f:id:cross_hyou:20210320163215p:plain

anova関数で、glm_2とglm_3を比較します。

f:id:cross_hyou:20210320163304p:plain

p値が0.09941と0.05よりも大きいので、glm_3とglm_2には有意な違いはありません。

モデルは単純なほうがいいので、glm_3をみてみます。

f:id:cross_hyou:20210320163713p:plain

emp_alwaysが有意でないようです。削除します。

f:id:cross_hyou:20210320163900p:plain

anova関数でglm_3とglm_4を比較します。

f:id:cross_hyou:20210320164042p:plain

p値が0.07854と0.05よりも大きいので、glm_3とglm_4では有意な違いはありません。

glm_4をsummary関数でみてみます。

f:id:cross_hyou:20210320164253p:plain

keihi_welfを削除します。

f:id:cross_hyou:20210320164433p:plain

glm_4とglm_5をanova関数で比較します。

f:id:cross_hyou:20210320164613p:plain

p値は0.1853ですね。glm_5を詳しくみてみます。

f:id:cross_hyou:20210320164757p:plain

employeeを削除します。

f:id:cross_hyou:20210320164916p:plain

glm_5とglm_6をanova関数で比較します。

f:id:cross_hyou:20210320165053p:plain

glm_6をみてみます。

f:id:cross_hyou:20210320165230p:plain

keihiを削除します。

f:id:cross_hyou:20210320165344p:plain

glm_6とglm_7をanova関数で比較します。

f:id:cross_hyou:20210320165510p:plain

glm_7をみてみます。

f:id:cross_hyou:20210320165632p:plain

op_expeを削除します。

f:id:cross_hyou:20210320165755p:plain

glm_7とglm_8をanova関数で比較します。

f:id:cross_hyou:20210320165940p:plain

glm_8をみてみます。

f:id:cross_hyou:20210320170050p:plain

hotel_restau_rを削除します。

f:id:cross_hyou:20210320170226p:plain

glm_8とglm_9をanova関数で比較します。

f:id:cross_hyou:20210320170528p:plain

glm_9をみてみます。

f:id:cross_hyou:20210320170642p:plain

たくさん説明変数がありましたが、最終的に残ったのはsaiyouだけでした。

2019年のsaiyou: 採用人数の多い都道府県ほど、2020年の売上高が増加している確率が高いことがわかります。

今回は以上です。

次回は

www.crosshyou.info

です。

はじめから読むには、

www.crosshyou.info

です。