Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

KaggleのTitanicのデータの分析3 - Sexの分析、女性の生存確率は74.2%, 男性の生存確率は18.9%

f:id:cross_hyou:20220305103641j:plain

Photo by Marc Schulte on Unsplash 

www.crosshyou.info

今回は、Sex、性別のデータを調べます。まずはtable()関数で度数を見ます。

f:id:cross_hyou:20220305104055p:plain

femaleは女性で、466人です。maleは男性で843人です。

prop.table()関数で比率にしてみます。

f:id:cross_hyou:20220305104335p:plain

女性が36%、男性が64%という割合ですね。

trainのデータとtestのデータで分けて度数、比率を見てみます。

f:id:cross_hyou:20220305104613p:plain

trainのデータは、女性が35%、男性が65%です。

f:id:cross_hyou:20220305104830p:plain

testのデータは、女性が36%、男性が64%です。

だいたい同じような比率ですが、統計的に有意な違いがあるかどうかをprop.test()関数で確認します。

prop.test(c(trainの女性の数, testの女性の数), c(trainの数, testの数))という構文になります。

f:id:cross_hyou:20220305105939p:plain

p-valueは0.7388と0.05よりもはるかに大きいので、trainとtestではSexの比率に統計学的に有意な違いはありません。

続いて、trainのデータで男性と女性の生存確率を見てみます。

まずは、Sexからfemaleだったら1、maleだったら0というダミー変数、femaleを作成します。

f:id:cross_hyou:20220305110657p:plain

この作成したfemaleを説明変数にして、Survivedを被説明変数にしてlm()関数で回帰分析します。

f:id:cross_hyou:20220305110915p:plain

Interceptの0.18891がmale(男性)の生存確率です。18.9%です。

女性の生存確率は、このInterceptの0.18891にfemaleの係数の0.55313を足して、

0.74204です。74.2%ということですね。

今回は以上です。

次回は、

 

www.crosshyou.info

です。

初めから読むには、

 

www.crosshyou.info

です。