Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

KaggleのTitanicのデータの分析10 - EmbarkedがCの乗客の生存確率は55.4%

f:id:cross_hyou:20220326080407j:plain

Photo by HyoSun Rosy Ko on Unsplash 

www.crosshyou.info

今回は、Embarkedです。embarkという動詞は乗り込む、乗り出すという意味のようですので、乗り込んだ港ですかね。まずはNAが何個あるかを確認します。

f:id:cross_hyou:20220326080946p:plain

NAは2個ありました。どういうデータがあるかhead()関数で始めの数個のデータを見てみます。

f:id:cross_hyou:20220326081134p:plain

SやCやQなどアルファベット一文字のようですね。

table()関数で度数を見てみます。

f:id:cross_hyou:20220326081336p:plain

Sが914で全体の半数以上なのですね。NAの2つもSだとみなしてしまいましょう。

f:id:cross_hyou:20220326081523p:plain

それではtrainとtestでのEmbarkedの比率を比べてみます。table()関数で度数表を作ってから、prop.table()で比率の表に変換します。

f:id:cross_hyou:20220326081819p:plain

trainのほうがSに集中していますね。カイ二乗検定でtrainとtestの度数分布に違いがあるのかどうか調べます。

f:id:cross_hyou:20220326082140p:plain

p-value = 0.01442となっていますので、5%の有意水準でtrainとtestではEmbarkedの度数分布に違いが無いとは言えません。

グラフにしてみます。mosaicplot()関数を使いました。

f:id:cross_hyou:20220326083301p:plain

f:id:cross_hyou:20220326083245p:plain

trainとtestで比率の違いがグラフになりました。

それでは、このEmbarkedとSurvivedの関係を見てみます。

f:id:cross_hyou:20220326083639p:plain

Cの人が生存率が55.4%で一番高く、Sの人が33.9%で一番低いです。
Sをベースにしたダミー変数を作って回帰分析をしてみます。

f:id:cross_hyou:20220326084007p:plain

EmbarkedがQなら1、そうでないなら0のダミー変数のemb_qと

Cなら1、そうでないなら0のダミー変数のemb_cを作りました。

この2つを説明変数に、Survivedを被説明変数にして回帰分析をします。

f:id:cross_hyou:20220326084338p:plain

Interceptの係数、0.33901がEmbarkedがSの人の生存確率ですね。emb_qの係数のp値は0.382なので、EmbarkedがQの人とSの人では生存率に有意な違いは無いようです。

emb_cの係数のp値が0.01よりもうんと小さいので、Sの人とCの人では生存率に有意な違いはあるようです。

今回は以上です。

次回は

 

www.crosshyou.info

です。

初めから読むには、

 

www.crosshyou.info

です。