社会保障統計費用の分析の3回目は、回帰分析に挑戦してみたいと思います。
まずは、データをread.csv関数で読込みます。summary関数でデータの要約統計量を表示しました。
総額を除いたそれぞれのデータの相関マトリックスを見てみます。cor関数です。
高齢と年度の相関係数が1.00です!年度が高くなるのよ高齢の社会保障費用は相関している、ということです。plot関数で散布図を見てみましょう。
高齢者への社会保障費用は毎年増加していますからね。
早速、高齢者を年度で線形単回帰分析してみましょう。lm関数です。
Rで線形単回帰分析をするのは簡単ですね。lm関数で結果をsummary関数で呼び出せばとりあえず結果がでます。上から順に結果の意味を見てみましょう。
Call:
lm(formula = Data$高齢 ~ Data$年度)
これは、高齢 = a + b * 年度 + 誤差項 という式で単回帰しています、という意味ですね。
Residuals:
min 1Q Median 3Q Max
-33950 -13022 -866 12548 26956
これは残差統計量です。Medianがマイナスなので左に歪みがあります。
Coefficients:
Estimate Std. Erro r t value Pr(>|t|)
(Intercept) -2.934e+07 4.558e+05 -64.36 <2e-16 ***
Data$年度 1.485e+04 2.281e+02 65.07 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
この部分のEstimateが推定式の係数を表しています。
高齢 = -29340000 + 14850 * 年度 + 誤差項
という式を意味します。つまり、1年経つごとに高齢への社会保障費用が14850憶円、1兆4850億円も増加するということです。
切片も年度もPr(>|t|)の値が < 2e-16 < 0.05 なので有意です。
Residual standard error: 14820 on 35 degrees of freedom
Multiple R-squared: 0.9918, Adjusted R-squared: 0.9916
F-statistic: 4235 on 1 and 35 DF, p-value: < 2.2e-16
R-squaredが0.9918なので、このモデル式の決定係数は0.9918ということです。
そして、F-statisticの行のp-vallueが、 < 2.2e-16 なので、<0.05 なので、回帰式モデル,
高齢 = -29340000 + 14850 * 年度 + 誤差項
は有意なモデル式だということです。
もうひとつ、高齢と逆相関だった失業でも線形単回帰分析をしてみましょう。
F-statisticのところのp-valueに注目です。 0.3835 > 0.05 ですから、回帰モデルは有意ではない、ということです。
高齢と保険でやってみましょう。
F-statistic のp-value < 2.2e-16 < 0.05 ですから、モデル式の
高齢 = -162500 + 1.843 * 保険 + 誤差項
は有意であるということです。保険の係数、1.843もPr (>|t|)の値が < 2e-16 < 0.05なので有意です。
最後に高齢を年度と保険で線形重回帰分析してみましょう。
モデル式は、
高齢 = -39060000 + 19790 * 年度 - 0.6322 * 保険 + 誤差項
となります。
F-statisticのp-value < 2.2e-16 <0.05 なので、このモデル式は有効です。
切片、年度、保険のそれぞれの係数のPr(>|t|)も0.05以下なので有効です。