の続きです。
今回は年度別の新規求職申込件数がどう推移してきているかを見てみます。
まずは、元のデータを確認します。head関数、summary関数でみてみましょう。
年別のMale, Female, GDP, Jobをまず集計します。tapply関数とsum関数を使います。
次に、人口当りの申し込み件数、人口当りのGDP、男女比率を作成します。
barplot関数でそれぞれの棒グラフを見てみます。
男女比率(赤い棒グラフ)は年によっての違いは無いですが、申込件数(緑の棒グラフ)と一人当りのGDP(黄色の棒グラフ)は年のよって違いがありますね。
それぞれの変動係数を計算してみます。sd関数で標準偏差を出して、mean関数で平均値を出して、標準偏差 / 平均値です。
pYJobが0.12, pYGDPが0.034, YMFRが0.002と順に変動が小さくなっています。
それぞれの散布図マトリックスと相関係数マトリックスを作成してみます。前準備として、data.frame関数でデータフレームを作ります
cor関数で相関係数マトリックス、plot関数で散布図マトリックスを作ります。
申込件数とGDPはマイナス相関です。GDPが大きいときは景気がいいから求職者も少ないのかな?男女比率と申込件数は正の相関ですね。
lm関数で回帰分析をしてみます。explanatory variabales(説明変数)はpYGDPとYMFRでresponse variable(反応変数)はpYJobです。データの数が10個しかないから難しいかも。
p-valueが3.65e-05ですから0.05よりも小さいので有意な統計モデルですね。Intercept, pYGDP, YMFRの3つのp値も0.05よりも小さく有意です。
ですからモデル式は、
pYJob = -1660 - 0.3519 x pYGDP + 1943 x YMFR
になります。pYGDPが大きいほどpYJobは小さくなり、YMFRが大きいほどpYJobは大きくなります。
残差プロットを描いてみます。
今回は以上です。