Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の趣味・娯楽の平均時間のデータ分析6 - R言語で重回帰分析。人口伸び率が大きいほど、一人当り県内総生産額が大きいほど、趣味・娯楽の時間は長い。

 

www.crosshyou.info

 の続きです。

今回は、趣味・娯楽時間の長さを性別、職業の有無に加えて、PopGr(人口伸び率)とGDPper(一人当り県民所得)の2変数も加えて重回帰分析をしてみようと思います。

まず、都道府県別のPopGrの2006年度と2011年度の平均値を作ります。

f:id:cross_hyou:20200311190049p:plain

福島県が人口減が一番大きく、東京都が人口増が一番多いです。

これを4回繰り返して、前回作成した、Minutes(趣味・娯楽の平均値)と同じ長さにします。rep関数です。

f:id:cross_hyou:20200311190432p:plain

同じ手順でGDPper(一人当り県民生産)も平均値を算出して、4回繰り返します。

f:id:cross_hyou:20200311190926p:plain

沖縄県が一番低く、東京都が一番多いです。

これで、説明変数が揃いました。Gender(男性か女性か), Job(有業者か無業者か), PopGravg(人口伸び率), GDPperavg(一人当り県民生産額)です。応答変数はMinutes(趣味・娯楽の時間)です。lm関数で重回帰分析をします。

f:id:cross_hyou:20200311191419p:plain

PopGravg:GDPperavg:Gendar:Jobはp値が0.25239と0.05よりも大きいので、削除してもよさそうです。

f:id:cross_hyou:20200311191753p:plain

anova関数でjm1とjm2を比較しています。p値が0.2524と0.05よりも大きいので、単純なjm2を採用します。

f:id:cross_hyou:20200311192000p:plain

PopGravg:GDPperavg:Jobを削除します。

f:id:cross_hyou:20200311192207p:plain

p値が0.8364なので、jm2とjm3には有意な違いはありません。単純なjm3を採用します。

f:id:cross_hyou:20200311192348p:plain

PopGravg:GDPperavg:Gendarを削除します。

f:id:cross_hyou:20200311192552p:plain

p値が0.814なので、jm3とjm4に有意な違いはありません。単純なほうのjm4を採用します。

f:id:cross_hyou:20200311192733p:plain

GDPperavg:Gendar:Jobは削除してもよさそうです。

f:id:cross_hyou:20200311192948p:plain

jm5をみてみましょう。

f:id:cross_hyou:20200311193104p:plain

PopGravg:Jobは削除してよさそうです。

f:id:cross_hyou:20200311193626p:plain

あれ~? p値が0ってなってますね。。PopGravg:Jobは削除してはいけなかったのかな?もう一度、jm5を見てみます。

f:id:cross_hyou:20200311193836p:plain

PopGravg:GDPperavgを削除してみます。

f:id:cross_hyou:20200311194026p:plain

よかった、p値が0.1944と0.05より大きくなりました。jm5とjm7に有意な違いはありません。単純なほうのjm7を採用します。

f:id:cross_hyou:20200311194217p:plain

GDPperavg:Jobを削除してみましょう

f:id:cross_hyou:20200311194417p:plain

jm8を採用します。

f:id:cross_hyou:20200311194521p:plain

PopGravg:Jobをこの段階で削除してみます。

f:id:cross_hyou:20200311194726p:plain

う~ん、やっぱりp値が0になってしまいますね。。。もう一度、jm8を見てみます。

f:id:cross_hyou:20200311194855p:plain

GDPperavg:Gendarを削除しましょう

f:id:cross_hyou:20200311195049p:plain

jm10をみてみましょう

f:id:cross_hyou:20200311195217p:plain

ここまでくると、削除できるのはPopGravg:Jobだけですね。。削除してみます。

f:id:cross_hyou:20200311195449p:plain

やっぱりp値が0というか表示すらされていないですね。。AIC関数で比較してみます。

f:id:cross_hyou:20200311195621p:plain

AICは同じですね。それでは説明変数の少ないjm11を採用しましょう。

f:id:cross_hyou:20200311195748p:plain

PopGravg:Gendaar:Jobを削除します。

f:id:cross_hyou:20200311200024p:plain

anova関数での比較はp値が0.05以下なので、jm11とjm12は有意な違いがあります。AIC関数で比較すると、jm11のほうがAICが低いので、jm11を採用します。

最終的にはjm11が重回帰モデルで得られたモデルです。

f:id:cross_hyou:20200311200300p:plain

となります。coef関数で各項目の係数を確認します。

f:id:cross_hyou:20200311200706p:plain

これはどういうことかというと、

男性・有業者の場合は

趣味・娯楽の時間 = 38.05 + 1.63 x PopGravg + 0.002 x GDPperavg + 33.46 - 15.77 + 7.49 x PopGravg - 20.50 - 7.94 x PopGravg です。整理すると、

趣味・娯楽の時間 = 35.24 + 1.18 x PopGr + 0.002 x GDPperavg です。人口の伸びが大きい都道府県ほど、一人当り県内生産の大きい都道府県ほど、男性・有業者の趣味・娯楽時間は長くなります。

 

男性・無業者の場合は

趣味娯楽の時間 = 38.05 + 1.63 x PopGravg + 0.002 x GDPperavg + 33.46 + 7.49 x PopGravg です。整理すると、

趣味・娯楽の時間 = 71.51 + 9.12 x PopGravg + 0.002 x GDPperavgです。人口の伸びが大きいほど、一人当り県内生産の大きい都道府県ほど、男性・無業者の趣味娯楽時間は長くなります。

 

女性・有業者の場合は

趣味・娯楽の時間 = 38.05 + 1.63 x PopGravg + 0.002 x GDPperavg -15.77 + 2.26 x PopGravgです。整理すると、

趣味・娯楽の時間 = 22.08 + 3.89 x PopGravg + 0.002 x GDPperavgです。人口の伸びが大きいほど、一人当り県内生産の大きい都道府県ほど、女性・有業者の趣味・娯楽時間は長くなります。

 

女性・無業者の場合は

趣味・娯楽の時間 = 38.05 + 1.63 x PopGravg + .002 x GDPperavgです。人口の伸びが大きい県ほど、一人当り県内生産の大きい都道府県ほど、女性・無業者の趣味・娯楽の時間は長くなります。

結論は、人口の伸び率が大きい県、一人当り県内総生産額の大きい県ほど趣味・娯楽の時間が長い、ということでした。

今回は以上です。