Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

小売物価統計調査のデータ分析4- OLSの3つの特性とSST(total sum of squares), SSE(explained sum of squares), SSR(residual sum of squares), SER(standard error of the regression), 説明変数の標準誤差

f:id:cross_hyou:20220409155549j:plain

Photo by Subtle Cinematics on Unsplash 

www.crosshyou.info

の続きです。

今回は、

Introductory Econometorics: A Modef\rn Approace 7e, by Jeffrey M. Wooldridgeを参考にしてOLSの特性を確認します。

2-3b Algebraic Properties of OLS Statisticsの部分で説明されている3つの特性を確認します。

一つ目は、

残差の合計が0、別の言い方で言えば、残差の平均が0ということです。

残差はresid()関数で求まりますので簡単に確認できます。

f:id:cross_hyou:20220409160439p:plain

0になっています。

2番目は、説明変数と残差の共分散は0、別の言い方で言えば、説明変数と残差を掛け算したものの合計は0、ということです。

f:id:cross_hyou:20220409161234p:plain

cov()関数で共分散を、sum()関数で合計を計算していますが、どちらの方法でも0になっています。

3番目は、被説明変数の平均値と説明変数の平均値は、OLSの回帰直線の上にある、ということです。

これはグラフにして確認しましょう。

f:id:cross_hyou:20220409162455p:plain

f:id:cross_hyou:20220409162537p:plain

赤丸、緑丸が平均値の位置です。回帰線の上に載っていることがわかります。

続いて、SST, SSE, SSRを計算してみます。

ここからは、houseを説明変数にした回帰分析モデルだけで計算します。

SSTはtotal sum of squaresというもので、それぞれの説明変数と平均値の差を2乗して合計したものです。

計算してみます。

f:id:cross_hyou:20220409163219p:plain

SSTは1155.717と算出されました。

SSRはexplained sum of squaresというもので、OLSで算出される予想値と平均値の差を2乗して合計したものです。予想値は、fitted()関数で算出できます。

f:id:cross_hyou:20220409163658p:plain

SSEは724.9415と算出されました。

SSRはresidual sum of squaresというもので、残差の2乗の合計です。残差はresid()関数で算出できます。

f:id:cross_hyou:20220409163926p:plain

SSRは430.7759と算出されました。

そして、このSST, SSE, SSRの関係は、

SST = SSE + SSR 

という関係が成り立つということです。

SSE + SSRがSSTと同じか、確認します。

f:id:cross_hyou:20220409164205p:plain

SST = 1155.711, SSE + SSR = 1155.7171 と一致しましたね。

そして、回帰分析のR2(決定係数)は

R2 = SSE/SST = 1 - SSR/SST

で計算されます。R2は被説明変数のバらツキ度合いのうち、どのくらいの比率がSSE、つまり回帰分析の式で説明できるのかを表しています。

R2を計算してみます。

f:id:cross_hyou:20220409164646p:plain

0R2は、0.6272654と算出されました。summary()関数で出力されていたR2と同じです。

f:id:cross_hyou:20220409164935p:plain

続いて、SER(standard error of regression)を計算しましょう。

SERは回帰モデルの誤差項の標準偏差の推定値です。

sqrt(SSR/(n - 2))

で求めることができます。nは観測数です。

f:id:cross_hyou:20220409165845p:plain

SERは0.9656165と算出されました。summary()関数の出力結果と同じですね。

f:id:cross_hyou:20220409170055p:plain

SERが算出できたので、houseのstandard error(標準誤差)を求めることができます。

SER/sqrt(SST_house)

で計算できます。
SST_houseはそれぞれのhouseの値と平均値の値を2乗したものの合計です。

f:id:cross_hyou:20220409171713p:plain

houseの標準誤差は、0.004922938と算出できました。summary()関数の出力結果と同じです。

f:id:cross_hyou:20220409171938p:plain

houseの係数を標準誤差で割り算すればt値が算出されます。

coef()関数でOLSの係数は取り出せます。

f:id:cross_hyou:20220409172400p:plain

houseのt値は27.88347となりました。summary()関数の出力結果と一致します。

f:id:cross_hyou:20220409172625p:plain

t値が27.88と2よりも遥かに大きい値なので、houseの係数のp値は0です。

f:id:cross_hyou:20220409174117p:plain

(Intercept)のStandard Errorも算出します。

f:id:cross_hyou:20220410170023p:plain

f:id:cross_hyou:20220410170044p:plain

今回は以上です。

次回は、

 

www.crosshyou.info

です。

初めから読むには、

 

www.crosshyou.info

です。