都道府県別の保護統計調査のデータ分析６ - R言語のlm()関数で回帰分析モデルを作成し、stagrgazer()関数でモデルを比較する。

の続きです。

今回は回帰分析をしています。被説明変数は、r_one:１号観察の割合、説明変数は、r_two: ２号観察の割合と、r_four: ４号観察の割合にしてみます。

まず、2021年のデータだけで回帰分析してみます。

はじめにr_oneとt_two, r_oneとr_fourの散布図を描いてみます。

geom_point()で散布図を描いて、geom_smooth()で回帰直線を重ねています。

わずかに右肩上がりの直線ですね。

r_oneとr_fourの散布図を描きます。

こちらは、右肩下がりの回帰直線です。

それでは、lm()関数で回帰分析してみます。

r_twoの係数は0.468とプラスです。これは散布図の回帰直線と同じですね。

でも、p値は0.384と大きな値なので、有意な係数ではないです。

r_fourの係数は-0.983とマイナスで、散布図の回帰直線の傾きと同じです。

p値は0.0033と小さな値なので有意な係数です。

説明変数をr_twoだけ、r_fourだけにした回帰分析もしてみます。

r_twoだけで回帰分析した結果は、r_twoの係数は0.680と値が大きくなりました。p値は0.245と0.05よりも大きいので、有意な係数ではないです。

係数が-1.018とマイナス幅が拡大しました。p値は0.0022と0.05よりも小さく、有意な係数といえます。

こうして作成した３つの回帰分析モデルを並べて比較します。

stargazerパッケージのstargazer()関数を使います。

Adjusted R2の値を比較すると、0.168, 0.008, 0.173とreg3, r_fourだけで回帰分析したモデルが1番大きな値です。

なので、この3つのモデルの中では、r_oneをr_fourで回帰する単回帰モデルが一番いいようです。

今回は以上です。

次回は、

です。

初めから読むには、

です。