www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

貯蓄動向調査の分析５ - 全世帯と勤労者世帯では年間収入、貯蓄率、負債率、貯蓄負債バランスに違いがあるかをR言語で検定

データ分析

www.crosshyou.info

の続きです。

前回までの分析で、全世帯と勤労者世帯を比較すると、年間収入はほとんど同じ、貯蓄率は全世帯が高い、負債率は全世帯が若干高いようなことがグラフでわかりました。

そこで今回は統計的に全世帯と勤労者世帯で差があるのかを統計学的に検定してみたいと思います。

まずは、世帯別の折れ線タイプのヒストグラムを描いてみたいと思います。library関数でtidyverseパッケージを読込みます。

f:id:cross_hyou:20181110102311j:plain

ggplot関数のgeom_freqpoly関数を使います。

まずは、年間収入です。

f:id:cross_hyou:20181110102747j:plain

f:id:cross_hyou:20181110102802j:plain

全世帯は年間収入が少ないところにも度数がありますね。

貯蓄率はどうでしょうか？

f:id:cross_hyou:20181110103100j:plain

f:id:cross_hyou:20181110103114j:plain

全世帯のほうが右側に分布していますね。

負債率はどうでしょうか？

f:id:cross_hyou:20181110103429j:plain

f:id:cross_hyou:20181110103439j:plain

ピークの位置は勤労者世帯は左側、全世帯は右側にありますね。

summarize関数で平均値と中央値も計算しておきましょう。group_by関数で全世帯、勤労者世帯の二つのグループにわけてmean関数で平均値、median関数で中央値を算出します。

f:id:cross_hyou:20181110104137j:plain

年間収入は、平均値は、勤労者世帯 > 全世帯となり、中央値は、勤労者世帯 < 全世帯となって平均値と中央値では大小が逆になります。

f:id:cross_hyou:20181110104654j:plain

貯蓄率は平均値、中央値ともに、勤労者世帯 < 全世帯となり、大小関係は同じになりました。

f:id:cross_hyou:20181110105036j:plain

負債率は平均値と中央値をいっぺんに計算してみました。負債率も勤労者世帯 < 全世帯の大小関係が平均値、中央値であり、貯蓄率と同じですね。

ここで一つ、思い付きました。貯蓄 / 負債　も計算してみましょう。mutaue関数で計算します。

f:id:cross_hyou:20181110105717j:plain

追加できました。

ggplot関数のgeom_line関数で経年の推移をグラフにしてみましょう。

f:id:cross_hyou:20181110110056j:plain

f:id:cross_hyou:20181110110113j:plain

1960年代、70年代は勤労者世帯のほうが値は高かったですが、その後は低くなっています。

折れ線グラフタイプのヒストグラム(ほんとは何ていうのでしょうか？)も見てみましょう。

f:id:cross_hyou:20181110110654j:plain

f:id:cross_hyou:20181110110708j:plain

勤労者世帯のほうが広範囲に値が分布していますね。

平均値と中央値も計算しましょう。

f:id:cross_hyou:20181110111051j:plain

平均値は、勤労者世帯 > 全世帯、中央値は、勤労者世帯 < 全世帯と大小関係が一致しませんね。

それでは平均値に違いがあるかどうかを検定してみたいと思います。

下準備として、全世帯のみ、勤労者世帯のみのデータセットを用意します。filter関数を使います。

f:id:cross_hyou:20181110112651j:plain

それではまずは、平均値に違いがあるかどうかをt.test関数で検証します。t検定です。年次が同じものが全世帯と勤労者世帯で対になっていますから、paired = TRUEと指定します。

f:id:cross_hyou:20181110121643j:plain

p-value = 0.01513 < 0.05 ですから、年間収入の平均値に違いがあるとは言えます。

次は、貯蓄率です。

f:id:cross_hyou:20181110121806j:plain

p-value = 5.192e-15 < 0.05 ですから、貯蓄率の平均値には違いがあると言えます。

次は負債率です。

f:id:cross_hyou:20181110121910j:plain

p-value = 2.747e-12 < 0.05 ですから、負債率の平均値に違いがあると言えます。

最後は貯蓄負債バランスです。

f:id:cross_hyou:20181110122034j:plain

p-value = 0.03835 < 0.05 ですから、貯蓄負債バランスの平均値に違いがあると言えます。

分布の位置についても検定しましょう。ウィルコクソン=マン・ホイットニー検定です。wilcox.test関数を使います。

f:id:cross_hyou:20181110122507j:plain

p-value = 0.09919 > 0.05 なので年間収入の標本位置に違いがあるとは言えません。

貯蓄率はどうでしょうか？

f:id:cross_hyou:20181110122810j:plain

p-value = 4.547e-13 < 0.05 ですから、貯蓄率の標本位置に違いはあると言えます。

負債率はどうでしょうか？

f:id:cross_hyou:20181110123053j:plain

p-value = 1.687e-10 < 0.05 なので、負債率の標本位置に違いはあると言えます。

最後です。貯蓄負債バランスはいかがでしょうか？

f:id:cross_hyou:20181110123356j:plain

p-value = 0.8238 > 0.05 なので、貯蓄負債バランスの標本位置に違いがあるとは言えません。

まとめると、平均値については全ての変数で違いがあると言えます。標本位置に関しては、貯蓄率と負債率については違いがあると言えますが、年間収入と貯蓄負債バランスは違いがあると言えません。

今回は以上です。