www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

KaggleのTitanicのデータの分析２ - Nameの分析、牧師さんの生存確率は0%!

データ分析

f:id:cross_hyou:20220302113235j:plain

Photo by Simon Berger on Unsplash

www.crosshyou.info

の続きです。

今回は、2番目の変数、Nameを分析します。

まずは、Nameってどんな感じか確認します。

f:id:cross_hyou:20220302113441p:plain

苗字、敬称、名前の順番で並んでいます。それぞれの間は、スペースで区切られているようです。

そこで、まず、separate()関数で名前、敬称、苗字をNameを3つに分解しましょう。

f:id:cross_hyou:20220302113709p:plain

separate()関数は、separate(文字列, 区切った後の変数名, 区切りの文字)というようにして使います。今回は、Nameをfirst_name, honorifics, last_nameという3つの変数に" "スペースで分解しています。

どんな名前、敬称、苗字が多いのか順番に見ていきます。

まずは名前から。

f:id:cross_hyou:20220302114316p:plain

ウィリアム、ジョン、チャールズ、ジョージとイギリスの王室の方々の名前が上位に挙がっています。女性の名前は出ていないですね。

女性限定で見てみましょう。

f:id:cross_hyou:20220302115008p:plain

あれ！？　William, John,, 男性の名前がランキングに入っていますね。データを入力するときに名前を間違えたか、性別を間違えたかどっちかですよね。。性別を間違えたと仮定して、WillamとJohnは全部男性に修正しておきましょう。

f:id:cross_hyou:20220302115637p:plain

次は敬称です。

f:id:cross_hyou:20220302115747p:plain

Mr.が多いですね。さっきの性別が間違っていた件もありましたので、念のため
Mr. Miss. Mrs.はそれぞれ性別をmale, female, femaleに修正しておきます。

f:id:cross_hyou:20220302120220p:plain

敬称は後で分析に使いたいので、ダミー変数を作成します。

f:id:cross_hyou:20220302120409p:plain

Mr. からRev. まで上位6位の敬称のダミー変数を作りました。Rev. というの牧師さんらしいです。

苗字のランキングもみてみましょう。

f:id:cross_hyou:20220302120720p:plain

AnderssonさんとSageさんが11人で一番多いようです。

今度はtrainとtestのデータでそれぞれの敬称の比率が統計学的に有意な違いがあるかどうかを確認します。prop.test()関数で調べます。

まずは、mrから調べます。

f:id:cross_hyou:20220302121503p:plain

trainのほうが56.3%, testのほうが56.0%で、p-value0.95なので両者に違いがあるとは言えないです。

次は miss を調べます。

f:id:cross_hyou:20220302122003p:plain

miss は train は20.1%, test は18.4% です。p-valueは0.5255なので両者に違いがあるとは言えないです。

mrs はどうでしょうか？

f:id:cross_hyou:20220302122237p:plain

train は13.6%で test は28.9% と倍以上の違いがあります。p-value は4.086e-11 となっていますので、Mrs. の比率はtrain とtest で統計的に有意な違いがあります。

master はどうでしょうか？

f:id:cross_hyou:20220302122557p:plain

train は4.49%で test は4.55%です。p-value = 1 なので両者に違いがあるとは言えないです。

dr はどうでしょうか？

f:id:cross_hyou:20220302122947p:plain

train は0.786%で test は0.239% です。p-value は0.4224なので両者に違いがあるとは言えないです。そもそもDr. は全部で8人しかいないので数が少ないので「カイ二乗検定は不正確かもしれません」となりました。

最後はrevですね。

f:id:cross_hyou:20220302123625p:plain

train は0.673%で test は0.478%です。p-value は0.9669 ですので両者に違いがあるとは言えません。

以上まとめると、Mrs. の比率がtrain よりも test のほうが倍以上高い、ということが判明しました。その他は違いは無いです。

それでは、これらのダミー変数を説明変数、Survived を被説明変数にして線形モデルで回帰分析してみます。

f:id:cross_hyou:20220302125120p:plain

このモデルの会社は、Intercept の0.389がMr. , Miss., Mrs., Master., Dr., Rev. 以外の敬称の人の生存確率です。

mr は -0.23152 なので、0.38889 - 0.23152 = 0.15737、15.7%の生存確率です。

miss は 0.3889 + 0.31502 = 0.70391, 70.4% の生存確率です。

mrs は 0.3889 + 0.41276 = 0.80165, 80.2% の生存確率です。

master は 0.3889 + 0.18611 = 0.575, 57.5% の生存確率です。

dr は 0.3889 + 0.03968 = 0.42857, 42.9% の生存確率です、しかしこれは統計的に有意な係数ではないので参考記録です。

rev は 0.38889 - 0.38889 = 0, 0%の生存確率です。Rev. の敬称のついた人はみんなお亡くなりになったようです。牧師さん、聖職者ですから他の人を優先したのでしょうね。

今回は以上です。

次回は

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。