crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

社会保障費用統計の分析3 - 高齢のための社会保障費用を他のデータで回帰分析をする。(lm関数)

社会保障統計費用の分析の3回目は、回帰分析に挑戦してみたいと思います。

まずは、データをread.csv関数で読込みます。summary関数でデータの要約統計量を表示しました。

f:id:cross_hyou:20180904141924j:plain

総額を除いたそれぞれのデータの相関マトリックスを見てみます。cor関数です。

f:id:cross_hyou:20180904142421j:plain

高齢と年度の相関係数が1.00です!年度が高くなるのよ高齢の社会保障費用は相関している、ということです。plot関数で散布図を見てみましょう。

f:id:cross_hyou:20180904142716j:plain

f:id:cross_hyou:20180904142728j:plain

高齢者への社会保障費用は毎年増加していますからね。

早速、高齢者を年度で線形単回帰分析してみましょう。lm関数です。

f:id:cross_hyou:20180904143313j:plain

Rで線形単回帰分析をするのは簡単ですね。lm関数で結果をsummary関数で呼び出せばとりあえず結果がでます。上から順に結果の意味を見てみましょう。

Call:
lm(formula = Data$高齢 ~ Data$年度)

これは、高齢 = a + b * 年度 + 誤差項  という式で単回帰しています、という意味ですね。

 

Residuals:
min        1Q         Median   3Q        Max
-33950   -13022   -866       12548   26956

これは残差統計量です。Medianがマイナスなので左に歪みがあります。

 

Coefficients:
                      Estimate     Std. Erro      r t value       Pr(>|t|)
(Intercept) -2.934e+07   4.558e+05     -64.36          <2e-16 ***
Data$年度 1.485e+04    2.281e+02      65.07          <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

この部分のEstimateが推定式の係数を表しています。

高齢 = -29340000 + 14850 * 年度 + 誤差項
という式を意味します。つまり、1年経つごとに高齢への社会保障費用が14850憶円、1兆4850億円も増加するということです。

切片も年度もPr(>|t|)の値が < 2e-16 < 0.05 なので有意です。

Residual standard error: 14820 on 35 degrees of freedom
Multiple R-squared: 0.9918, Adjusted R-squared: 0.9916
F-statistic: 4235 on 1 and 35 DF, p-value: < 2.2e-16

R-squaredが0.9918なので、このモデル式の決定係数は0.9918ということです。

そして、F-statisticの行のp-vallueが、 < 2.2e-16 なので、<0.05 なので、回帰式モデル,

高齢 = -29340000 + 14850 * 年度 + 誤差項
は有意なモデル式だということです。

もうひとつ、高齢と逆相関だった失業でも線形単回帰分析をしてみましょう。

f:id:cross_hyou:20180904145425j:plain

F-statisticのところのp-valueに注目です。 0.3835 > 0.05 ですから、回帰モデルは有意ではない、ということです。

高齢と保険でやってみましょう。

f:id:cross_hyou:20180904145744j:plain

F-statistic のp-value < 2.2e-16 < 0.05 ですから、モデル式の

高齢 = -162500 + 1.843 * 保険 + 誤差項
は有意であるということです。保険の係数、1.843もPr (>|t|)の値が < 2e-16 < 0.05なので有意です。

最後に高齢を年度と保険で線形重回帰分析してみましょう。

f:id:cross_hyou:20180904150636j:plain

モデル式は、

高齢 = -39060000 + 19790 * 年度 - 0.6322 * 保険 + 誤差項

となります。

F-statisticのp-value < 2.2e-16 <0.05 なので、このモデル式は有効です。

切片、年度、保険のそれぞれの係数のPr(>|t|)も0.05以下なので有効です。