Photo by Sharon McCutcheon on Unsplash
の続きです。今回はParchです。parent, childrenの数だと思います。
summary()関数でNAがあるかどうかなどを見てみます。
0か9までです。NAは無いようですね。
table()関数で度数をみてみます。
圧倒的に0が多いですね。
ParchとSibSpってどのくらい相関しているのでしょうか?cor()関数でみてみます。
相関係数は0.37でした。
train, test別に度数をみてみます。
大きな違いは無さそうですね。
prop.table()関数を使って比率の表にしてみます。
大きな違いは無さそうですね。
chisq.test()関数でカイ二乗検定をしてみます。
まず、準備としてtrain, test別に分けて度数を示した表を作ります。
この表を対象にカイ二乗検定します。
p-value = 0.548と0.05よりもうんと大きいので、trainとtestでParchの度数分布に大きな違いがあるとは言えないです。
次は、Survivedとの関係を見てみます。ダミー変数としてParch == 0 を基準にしてparch1, parch2 , parch3, parch4, parch5, parch69を作ります。Parchが9なのはtestのデータにしかいないので、Parch == 6とParch == 9 は一緒にします。
lm()関数で回帰分析をします。
Interceptの係数は0.34366です。これは、Parch == 0 の人の生存確率です。34.4%です。
parch1の係数は0.20719です。これはParch == 1 の人の生存確率が、0.34366 + 0.20719 = 0.55085, 55.1%であることを表しています。
parch2の係数は0.15634です。これはParch == 2 の人の生存確率が、0.34366 + 0.15634 = 0.5, 50%であることを表しています。
parch3の係数は0.25634です。これはParch == 3 の人の生存確率が、0.34366 + 0.25634 = 0.6, 60%であることを表しています。
parch4の係数は -0.34366です。これはParch == 4 の人の生存確率が、0.34366 - 0.34366 = 0, 0%であることを表しています。
parch5の係数は -0.14366です。これは Parch == 5 の人の生存確率が、0.34366 - 0.14366 = 0.2, 20%であることを表しています。
parch69の係数はparch4と同じ -0.3466です。これはParch == 6の人の生存確率が0%であることを表しています。
今回は以上です。
次回は
です。
初めから読むには、
です。