の続きです。
前回までの分析で、全世帯と勤労者世帯を比較すると、年間収入はほとんど同じ、貯蓄率は全世帯が高い、負債率は全世帯が若干高いようなことがグラフでわかりました。
そこで今回は統計的に全世帯と勤労者世帯で差があるのかを統計学的に検定してみたいと思います。
まずは、世帯別の折れ線タイプのヒストグラムを描いてみたいと思います。library関数でtidyverseパッケージを読込みます。
ggplot関数のgeom_freqpoly関数を使います。
まずは、年間収入です。
全世帯は年間収入が少ないところにも度数がありますね。
貯蓄率はどうでしょうか?
全世帯のほうが右側に分布していますね。
負債率はどうでしょうか?
ピークの位置は勤労者世帯は左側、全世帯は右側にありますね。
summarize関数で平均値と中央値も計算しておきましょう。group_by関数で全世帯、勤労者世帯の二つのグループにわけてmean関数で平均値、median関数で中央値を算出します。
年間収入は、平均値は、勤労者世帯 > 全世帯となり、中央値は、勤労者世帯 < 全世帯となって平均値と中央値では大小が逆になります。
貯蓄率は平均値、中央値ともに、勤労者世帯 < 全世帯となり、大小関係は同じになりました。
負債率は平均値と中央値をいっぺんに計算してみました。負債率も勤労者世帯 < 全世帯の大小関係が平均値、中央値であり、貯蓄率と同じですね。
ここで一つ、思い付きました。貯蓄 / 負債 も計算してみましょう。mutaue関数で計算します。
追加できました。
ggplot関数のgeom_line関数で経年の推移をグラフにしてみましょう。
1960年代、70年代は勤労者世帯のほうが値は高かったですが、その後は低くなっています。
折れ線グラフタイプのヒストグラム(ほんとは何ていうのでしょうか?)も見てみましょう。
勤労者世帯のほうが広範囲に値が分布していますね。
平均値と中央値も計算しましょう。
平均値は、勤労者世帯 > 全世帯、中央値は、勤労者世帯 < 全世帯と大小関係が一致しませんね。
それでは平均値に違いがあるかどうかを検定してみたいと思います。
下準備として、全世帯のみ、勤労者世帯のみのデータセットを用意します。filter関数を使います。
それではまずは、平均値に違いがあるかどうかをt.test関数で検証します。t検定です。年次が同じものが全世帯と勤労者世帯で対になっていますから、paired = TRUEと指定します。
p-value = 0.01513 < 0.05 ですから、年間収入の平均値に違いがあるとは言えます。
次は、貯蓄率です。
p-value = 5.192e-15 < 0.05 ですから、貯蓄率の平均値には違いがあると言えます。
次は負債率です。
p-value = 2.747e-12 < 0.05 ですから、負債率の平均値に違いがあると言えます。
最後は貯蓄負債バランスです。
p-value = 0.03835 < 0.05 ですから、貯蓄負債バランスの平均値に違いがあると言えます。
分布の位置についても検定しましょう。ウィルコクソン=マン・ホイットニー検定です。wilcox.test関数を使います。
p-value = 0.09919 > 0.05 なので年間収入の標本位置に違いがあるとは言えません。
貯蓄率はどうでしょうか?
p-value = 4.547e-13 < 0.05 ですから、貯蓄率の標本位置に違いはあると言えます。
負債率はどうでしょうか?
p-value = 1.687e-10 < 0.05 なので、負債率の標本位置に違いはあると言えます。
最後です。貯蓄負債バランスはいかがでしょうか?
p-value = 0.8238 > 0.05 なので、貯蓄負債バランスの標本位置に違いがあるとは言えません。
まとめると、平均値については全ての変数で違いがあると言えます。標本位置に関しては、貯蓄率と負債率については違いがあると言えますが、年間収入と貯蓄負債バランスは違いがあると言えません。
今回は以上です。