Photo by Simon Berger on Unsplash
の続きです。
今回は、2番目の変数、Nameを分析します。
まずは、Nameってどんな感じか確認します。
苗字、敬称、名前の順番で並んでいます。それぞれの間は、スペースで区切られているようです。
そこで、まず、separate()関数で名前、敬称、苗字をNameを3つに分解しましょう。
separate()関数は、separate(文字列, 区切った後の変数名, 区切りの文字)というようにして使います。今回は、Nameをfirst_name, honorifics, last_nameという3つの変数に" "スペースで分解しています。
どんな名前、敬称、苗字が多いのか順番に見ていきます。
まずは名前から。
ウィリアム、ジョン、チャールズ、ジョージとイギリスの王室の方々の名前が上位に挙がっています。女性の名前は出ていないですね。
女性限定で見てみましょう。
あれ!? William, John,, 男性の名前がランキングに入っていますね。データを入力するときに名前を間違えたか、性別を間違えたかどっちかですよね。。性別を間違えたと仮定して、WillamとJohnは全部男性に修正しておきましょう。
次は敬称です。
Mr.が多いですね。さっきの性別が間違っていた件もありましたので、念のため
Mr. Miss. Mrs.はそれぞれ性別をmale, female, femaleに修正しておきます。
敬称は後で分析に使いたいので、ダミー変数を作成します。
Mr. からRev. まで上位6位の敬称のダミー変数を作りました。Rev. というの牧師さんらしいです。
苗字のランキングもみてみましょう。
AnderssonさんとSageさんが11人で一番多いようです。
今度はtrainとtestのデータでそれぞれの敬称の比率が統計学的に有意な違いがあるかどうかを確認します。prop.test()関数で調べます。
まずは、mrから調べます。
trainのほうが56.3%, testのほうが56.0%で、p-value0.95なので両者に違いがあるとは言えないです。
次は miss を調べます。
miss は train は20.1%, test は18.4% です。p-valueは0.5255なので両者に違いがあるとは言えないです。
mrs はどうでしょうか?
train は13.6%で test は28.9% と倍以上の違いがあります。p-value は4.086e-11 となっていますので、Mrs. の比率はtrain とtest で統計的に有意な違いがあります。
master はどうでしょうか?
train は4.49%で test は4.55%です。p-value = 1 なので両者に違いがあるとは言えないです。
dr はどうでしょうか?
train は0.786%で test は0.239% です。p-value は0.4224なので両者に違いがあるとは言えないです。そもそもDr. は全部で8人しかいないので数が少ないので「カイ二乗検定は不正確かもしれません」となりました。
最後はrevですね。
train は0.673%で test は0.478%です。p-value は0.9669 ですので両者に違いがあるとは言えません。
以上まとめると、Mrs. の比率がtrain よりも test のほうが倍以上高い、ということが判明しました。その他は違いは無いです。
それでは、これらのダミー変数を説明変数、Survived を被説明変数にして線形モデルで回帰分析してみます。
このモデルの会社は、Intercept の0.389がMr. , Miss., Mrs., Master., Dr., Rev. 以外の敬称の人の生存確率です。
mr は -0.23152 なので、0.38889 - 0.23152 = 0.15737、15.7%の生存確率です。
miss は 0.3889 + 0.31502 = 0.70391, 70.4% の生存確率です。
mrs は 0.3889 + 0.41276 = 0.80165, 80.2% の生存確率です。
master は 0.3889 + 0.18611 = 0.575, 57.5% の生存確率です。
dr は 0.3889 + 0.03968 = 0.42857, 42.9% の生存確率です、しかしこれは統計的に有意な係数ではないので参考記録です。
rev は 0.38889 - 0.38889 = 0, 0%の生存確率です。Rev. の敬称のついた人はみんなお亡くなりになったようです。牧師さん、聖職者ですから他の人を優先したのでしょうね。
今回は以上です。
次回は
です。
初めから読むには、
です。