www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の消防・教育・警察部門職員数のデータ分析４ - 外れ値を除外した回帰分析と外れ値も含んだ回帰分析の比較。

データ分析

www.crosshyou.info

の続きです。

前回は外れ値を取り除きましたからそれを使って回帰分析をしてみたいと思います。

まずは、外れ値をデータフレームとして、一つにまとめます。data.frame関数でデータフレームは作成できます。

f:id:cross_hyou:20200425204555j:plain

変数同士の相関係数を見てみます。cor関数を使います。

f:id:cross_hyou:20200425204743j:plain

一番相関係数が絶対値で大きいのは、outFireとoutEduですね。

散布図マトリックスを描きましょう。pairs関数を使います。

f:id:cross_hyou:20200425205102j:plain

f:id:cross_hyou:20200425204942j:plain

outGDPはoutFire, outEdu, outPoliceとはあまり相関が無いようですね。

outGDPをresponse variableに、他の変数をexplanatory variablesにして線形回帰分析をしてみます。lm関数を使います。

f:id:cross_hyou:20200425205343j:plain

一番下の行にあるp-valueが0.3767となっていますから、このモデルは有意ではないです。

まず、outFire:outPoliceを削除してみます。

f:id:cross_hyou:20200425205615j:plain

Pr(>F)が0.4011と0.05よりも大きいので、lm1とlm2には有意な違いはありません。

lm2をsummary関数で見てみましょう。

f:id:cross_hyou:20200425205809j:plain

p-valueが0.3346ですので、lm2も有意なモデルではないです。

outFire:outEdu:outPoliceを削除してみます。

f:id:cross_hyou:20200425210127j:plain

Pr(>F)が0.2599なので、lm2とlm3は有意な違いはありません。

lm3を見てみます。

f:id:cross_hyou:20200425210306j:plain

lm3のp-valueは0.35ですから有意なモデルではないですね。

step関数でlm3をもっと単純化しましょう。

f:id:cross_hyou:20200425210505j:plain

p-valueが0.04776と0.05よりも小さいので、これは有意なモデルです。outEduだけが有意な変数として残りましたね。教育部門の人数が少ない都道府県のほうが県内総生産は多い傾向があるようです。といってもMultiple R-squaredが0.09675ですので、このモデルでは、outGDPの値を9.7%しか説明できません。

lm4の残差プロットを描きましょう。

f:id:cross_hyou:20200425210828j:plain

f:id:cross_hyou:20200425210841j:plain

愛知県、埼玉県、奈良県がモデルから予測される値と実際の値の差が大きいことがわかります。

こんどは、外れ値も含んだ47都道府県全部のデータで同じように回帰分析してみましょう。

おなじようにデータフレームを作ります。

f:id:cross_hyou:20200425211258j:plain

lm関数で回帰分析します。

f:id:cross_hyou:20200425211538j:plain

p-valueが3.306e-07なので有意なモデルです。

step関数で単純化します。

f:id:cross_hyou:20200425211741j:plain

p-valueは2.195e-08なので有意なモデルです。perFire:perPolice, perEdu:perPoliceというinteractionも残っていますね。Multiple R-squaredは0.6471ですから、このモデルでperGDPの値を64.7%説明できます。外れ値を除外して分析したモデルとはかなり違いますね。

残差プロットを描いてみます。

f:id:cross_hyou:20200425212327j:plain

f:id:cross_hyou:20200425212338j:plain

右端にあるプロットが東京都ですね。

lm4(外れ値を除外したモデル)の残差とlma2(外れ値も含んだモデル)の残差を箱ひげ図で比較してみましょう。

f:id:cross_hyou:20200425212938j:plain

f:id:cross_hyou:20200425212924j:plain

lma2(外れ値も入れて回帰分析したモデル)のほうが箱ひげ図の箱本体も、ひげも小さいですね。外れ値も含めて分析したほうがいいときもあるのですね。というか本当に外れ値だったのでしょうか？これは勉強不足で私はわかりません。

今回は以上です。