Photo by Subtle Cinematics on Unsplash
の続きです。
今回は、
Introductory Econometorics: A Modef\rn Approace 7e, by Jeffrey M. Wooldridgeを参考にしてOLSの特性を確認します。
2-3b Algebraic Properties of OLS Statisticsの部分で説明されている3つの特性を確認します。
一つ目は、
残差の合計が0、別の言い方で言えば、残差の平均が0ということです。
残差はresid()関数で求まりますので簡単に確認できます。
0になっています。
2番目は、説明変数と残差の共分散は0、別の言い方で言えば、説明変数と残差を掛け算したものの合計は0、ということです。
cov()関数で共分散を、sum()関数で合計を計算していますが、どちらの方法でも0になっています。
3番目は、被説明変数の平均値と説明変数の平均値は、OLSの回帰直線の上にある、ということです。
これはグラフにして確認しましょう。
赤丸、緑丸が平均値の位置です。回帰線の上に載っていることがわかります。
続いて、SST, SSE, SSRを計算してみます。
ここからは、houseを説明変数にした回帰分析モデルだけで計算します。
SSTはtotal sum of squaresというもので、それぞれの説明変数と平均値の差を2乗して合計したものです。
計算してみます。
SSTは1155.717と算出されました。
SSRはexplained sum of squaresというもので、OLSで算出される予想値と平均値の差を2乗して合計したものです。予想値は、fitted()関数で算出できます。
SSEは724.9415と算出されました。
SSRはresidual sum of squaresというもので、残差の2乗の合計です。残差はresid()関数で算出できます。
SSRは430.7759と算出されました。
そして、このSST, SSE, SSRの関係は、
SST = SSE + SSR
という関係が成り立つということです。
SSE + SSRがSSTと同じか、確認します。
SST = 1155.711, SSE + SSR = 1155.7171 と一致しましたね。
そして、回帰分析のR2(決定係数)は
R2 = SSE/SST = 1 - SSR/SST
で計算されます。R2は被説明変数のバらツキ度合いのうち、どのくらいの比率がSSE、つまり回帰分析の式で説明できるのかを表しています。
R2を計算してみます。
0R2は、0.6272654と算出されました。summary()関数で出力されていたR2と同じです。
続いて、SER(standard error of regression)を計算しましょう。
SERは回帰モデルの誤差項の標準偏差の推定値です。
sqrt(SSR/(n - 2))
で求めることができます。nは観測数です。
SERは0.9656165と算出されました。summary()関数の出力結果と同じですね。
SERが算出できたので、houseのstandard error(標準誤差)を求めることができます。
SER/sqrt(SST_house)
で計算できます。
SST_houseはそれぞれのhouseの値と平均値の値を2乗したものの合計です。
houseの標準誤差は、0.004922938と算出できました。summary()関数の出力結果と同じです。
houseの係数を標準誤差で割り算すればt値が算出されます。
coef()関数でOLSの係数は取り出せます。
houseのt値は27.88347となりました。summary()関数の出力結果と一致します。
t値が27.88と2よりも遥かに大きい値なので、houseの係数のp値は0です。
(Intercept)のStandard Errorも算出します。
今回は以上です。
次回は、
です。
初めから読むには、
です。