の続きです。
今回はR言語のlm関数で回帰分析をしてみます。
前回の分析では、2020年の1企業当たりの売上高が増えているところもあれば、減っているところもありました。この増減を他の変数で回帰分析してみようと思います。
まず、2020年 - 2019年の変化幅を含むデータフレームを作成します。
愛知県や沖縄県は増えていますが、岡山県や岩手県は減っています。
次に、2019年度だけ、totalだけのデータフレームを作ります。
inner_join関数で作成した2つのデータフレームをprefを鍵にして結合します。
業種によって2020年の売上高の伸び率が違うと思いますので、各都道府県の業種比率のデータフレームを作成します。
こうして作成したdf_ratioをdf2にinner_join関数で結合します。
これで回帰分析用のデータフレームは準備できました。
このdf2の変数がどのくらいの種類かnames関数でみてみます。
42個もありますね。
こんなに多くの変数で回帰分析するのは嫌なので、変数を絞り込みたいと思います。
chg_netが被説明変数です。これと相関の高い変数は何か調べます。
このように、相関係数を入れるデータフレームを作っておきます。
こんな感じの空のデータフレームです。
for関数でchg_netと各変数の相関係数を計算し、それを空のデータフレームに格納していきます。
life_leisure_r: 生活、レジャー産業比率が一番相関が高いです。2番目がsonota_serv_r: その他サービス業の比率、3番目がsaiyou: 採用人数です。採用人数が高いとchg_netも大きいというのは何となくわかります。売上の増える見込みがあれば、人を採用するでしょうからね。
この9つの変数で回帰分析モデルを作ってみます。
summary関数でモデルを表示します。
p-valueが0.03123と0.05よりも小さいので有意なモデルです。
今回は以上です。
次回は、
です。
はじめから読むには、
です。