Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の個人企業経済調査のデータの分析5 - R言語で回帰分析をする。準備として相関係数ランキングを作成した。

 

www.crosshyou.info

の続きです。

今回はR言語のlm関数で回帰分析をしてみます。

前回の分析では、2020年の1企業当たりの売上高が増えているところもあれば、減っているところもありました。この増減を他の変数で回帰分析してみようと思います。

まず、2020年 - 2019年の変化幅を含むデータフレームを作成します。

f:id:cross_hyou:20210319212221p:plain

愛知県や沖縄県は増えていますが、岡山県や岩手県は減っています。

次に、2019年度だけ、totalだけのデータフレームを作ります。

f:id:cross_hyou:20210319212410p:plain

inner_join関数で作成した2つのデータフレームをprefを鍵にして結合します。

f:id:cross_hyou:20210319212529p:plain

業種によって2020年の売上高の伸び率が違うと思いますので、各都道府県の業種比率のデータフレームを作成します。

f:id:cross_hyou:20210319212717p:plain

こうして作成したdf_ratioをdf2にinner_join関数で結合します。

f:id:cross_hyou:20210319212818p:plain



これで回帰分析用のデータフレームは準備できました。

このdf2の変数がどのくらいの種類かnames関数でみてみます。

f:id:cross_hyou:20210319212957p:plain

42個もありますね。

こんなに多くの変数で回帰分析するのは嫌なので、変数を絞り込みたいと思います。

chg_netが被説明変数です。これと相関の高い変数は何か調べます。

f:id:cross_hyou:20210319213243p:plain

このように、相関係数を入れるデータフレームを作っておきます。

f:id:cross_hyou:20210319213349p:plain

こんな感じの空のデータフレームです。

f:id:cross_hyou:20210319213448p:plain

for関数でchg_netと各変数の相関係数を計算し、それを空のデータフレームに格納していきます。

f:id:cross_hyou:20210319213626p:plain

life_leisure_r: 生活、レジャー産業比率が一番相関が高いです。2番目がsonota_serv_r: その他サービス業の比率、3番目がsaiyou: 採用人数です。採用人数が高いとchg_netも大きいというのは何となくわかります。売上の増える見込みがあれば、人を採用するでしょうからね。

この9つの変数で回帰分析モデルを作ってみます。

f:id:cross_hyou:20210319213938p:plain

summary関数でモデルを表示します。

f:id:cross_hyou:20210319214106p:plain

p-valueが0.03123と0.05よりも小さいので有意なモデルです。

今回は以上です。

次回は、

 

www.crosshyou.info

 です。

はじめから読むには、

 

www.crosshyou.info

 です。