UnsplashのGabriel Garcia Marengoが撮影した写真
の続きです。
今回は回帰分析をしています。被説明変数は、r_one:1号観察の割合、説明変数は、r_two: 2号観察の割合と、r_four: 4号観察の割合にしてみます。
まず、2021年のデータだけで回帰分析してみます。
はじめにr_oneとt_two, r_oneとr_fourの散布図を描いてみます。
geom_point()で散布図を描いて、geom_smooth()で回帰直線を重ねています。
わずかに右肩上がりの直線ですね。
r_oneとr_fourの散布図を描きます。
こちらは、右肩下がりの回帰直線です。
それでは、lm()関数で回帰分析してみます。
r_twoの係数は0.468とプラスです。これは散布図の回帰直線と同じですね。
でも、p値は0.384と大きな値なので、有意な係数ではないです。
r_fourの係数は-0.983とマイナスで、散布図の回帰直線の傾きと同じです。
p値は0.0033と小さな値なので有意な係数です。
説明変数をr_twoだけ、r_fourだけにした回帰分析もしてみます。
r_twoだけで回帰分析した結果は、r_twoの係数は0.680と値が大きくなりました。p値は0.245と0.05よりも大きいので、有意な係数ではないです。
係数が-1.018とマイナス幅が拡大しました。p値は0.0022と0.05よりも小さく、有意な係数といえます。
こうして作成した3つの回帰分析モデルを並べて比較します。
stargazerパッケージのstargazer()関数を使います。
Adjusted R2の値を比較すると、0.168, 0.008, 0.173とreg3, r_fourだけで回帰分析したモデルが1番大きな値です。
なので、この3つのモデルの中では、r_oneをr_fourで回帰する単回帰モデルが一番いいようです。
今回は以上です。
次回は、
です。
初めから読むには、
です。