Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

KaggleのTitanicのデータの分析6 - Parchの分析、Parchは0だと生存確率は34.4%, 1だと 55.1%, 2だと50%

f:id:cross_hyou:20220313092459j:plain

Photo by Sharon McCutcheon on Unsplash 

www.crosshyou.info

の続きです。今回はParchです。parent, childrenの数だと思います。

summary()関数でNAがあるかどうかなどを見てみます。

f:id:cross_hyou:20220313092658p:plain

0か9までです。NAは無いようですね。

table()関数で度数をみてみます。

f:id:cross_hyou:20220313092824p:plain

圧倒的に0が多いですね。

ParchとSibSpってどのくらい相関しているのでしょうか?cor()関数でみてみます。

f:id:cross_hyou:20220313093104p:plain

相関係数は0.37でした。

train, test別に度数をみてみます。

f:id:cross_hyou:20220313093301p:plain

大きな違いは無さそうですね。

prop.table()関数を使って比率の表にしてみます。

f:id:cross_hyou:20220313093412p:plain

大きな違いは無さそうですね。

chisq.test()関数でカイ二乗検定をしてみます。

まず、準備としてtrain, test別に分けて度数を示した表を作ります。

f:id:cross_hyou:20220313094242p:plain

この表を対象にカイ二乗検定します。

f:id:cross_hyou:20220313094349p:plain

p-value = 0.548と0.05よりもうんと大きいので、trainとtestでParchの度数分布に大きな違いがあるとは言えないです。

次は、Survivedとの関係を見てみます。ダミー変数としてParch == 0 を基準にしてparch1, parch2 , parch3, parch4, parch5, parch69を作ります。Parchが9なのはtestのデータにしかいないので、Parch == 6とParch == 9 は一緒にします。

f:id:cross_hyou:20220313095021p:plain

lm()関数で回帰分析をします。

f:id:cross_hyou:20220313095601p:plain

Interceptの係数は0.34366です。これは、Parch == 0 の人の生存確率です。34.4%です。

parch1の係数は0.20719です。これはParch == 1 の人の生存確率が、0.34366 + 0.20719 = 0.55085, 55.1%であることを表しています。

parch2の係数は0.15634です。これはParch == 2 の人の生存確率が、0.34366 + 0.15634 = 0.5, 50%であることを表しています。

parch3の係数は0.25634です。これはParch == 3 の人の生存確率が、0.34366 + 0.25634 = 0.6, 60%であることを表しています。

parch4の係数は -0.34366です。これはParch == 4 の人の生存確率が、0.34366 - 0.34366 = 0, 0%であることを表しています。

parch5の係数は -0.14366です。これは Parch == 5 の人の生存確率が、0.34366 - 0.14366 = 0.2, 20%であることを表しています。

parch69の係数はparch4と同じ -0.3466です。これはParch == 6の人の生存確率が0%であることを表しています。

今回は以上です。

次回は

 

www.crosshyou.info

です。

初めから読むには、

 

www.crosshyou.info

です。