の続きです。
今回はR言語で回帰分析をしてみます。
まず、2015年度だけのデータフレームを作成してdf15と名前をつけます。
このdf15のpJob(人口1000人当りの新規求職申込件数)とpGDP(一人当りの県内総生産額(万円))を回帰分析します。
まずは、plot関数で散布図を描きましょう。
右端にポツンと点がありますね。東京都だと思うのですが外れ値ですね。
まずは、このまま回帰分析してみます。lm関数を使います。
p-valueが0.01363と0.05よりも小さいので、この回帰分析モデルは統計的に有意です。pGDPの係数は、-0.03277ですからpGDPが大きいほど件数は少ないことになります。
abline関数で回帰直線を描きます。
こうなりました。回帰直線は右肩下がりですね。
pJob, pGDPの外れ値をboxplot関数で確認します。
pJobには大きい外れ値が一つ、pGDPには大きい外れ値が二つあります。これらのデータを除外したデータフレームを作成して、df15_v2と名前を付けます。
pJobの一番大きい値は、53.853ですね。これを削除しましょう。
次は、pGDPの外れ値を確認します。
500以上の二つのデータが外れ値ですね。
NAの行を削除します。
pJobの最大値が46.04になっていますし、pGDPの最大値が47.3になっています。Yearの2015年度の数が44ですから、無事に3つの都道府県が除外されました。この外れ値を除外したデータで散布図を描いてみます。
それでは、回帰モデルを作成してみます。
p-valueは0.04762と0.05よりも小さいので有意なモデルです。
もともともデータの散布図にmodel1, model2の回帰直線を重ねてみます。
外れ値を含んだデータで回帰したモデル(青)も外れ値を除外したデータで回帰したモデル(緑)もそんなに違いはありませんね。
二つのモデルの残差プロットを見てみます。
今回は以上です。