Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

KaggleのTitanicのデータの分析7 - Ticketの分析、Ticketが数字だけなのか、アルファベットも入っているのかは、あまり関係ない。

f:id:cross_hyou:20220319081657j:plain

Photo by Roland Lösslein on Unsplash 

www.crosshyou.info

今回はTicketの分析をします。

まずは、NAの有無を確認します。

f:id:cross_hyou:20220319082249p:plain

NAは無いようです。

始めの数個のデータを眺めてみます。

f:id:cross_hyou:20220319082505p:plain

数字だけのデータもあれば、アルファベットのあるデータもあります。

数字だけのデータがどのくらいの比率なのかみてみます。

f:id:cross_hyou:20220319082911p:plain

数字だけのTicketは73%ぐらいですね。

Ticketが数字だけなら1, アルファベットも含むなら0というダミー変数を作成します。

f:id:cross_hyou:20220319083256p:plain

trainとtestでこのnum_ticketの比率に差があるかを確認します。

まずは、それぞれの比率を確認します。

f:id:cross_hyou:20220319083517p:plain

trainは74%でtestは71%ほどですね。この差は有意な差なのでしょうか?

prop.test関数で検定します。

f:id:cross_hyou:20220319084009p:plain

p-value = 0.2239 と0.05よりも大きい値なのでtrainとtestではnum_ticketの比率に有意な違いは無いとわかりました。

せっかくtrain_num_ticketなどとオブジェクトを作りましたからグラフにしてみます。

f:id:cross_hyou:20220319084851p:plain

f:id:cross_hyou:20220319084901p:plain

グラフで見比べると、比率に大きな違いはないように感じますね。

Surviedとnum_ticketの関係を見てみます。

f:id:cross_hyou:20220319085151p:plain

num_ticketの係数は0.001658と非常に小さく、p値も0.965と大きいです。

Ticketが数字だけなのか、アルファベットも入っているのかは生存確率とは関係が無いようです。

今回は以上です。

次回は

 

www.crosshyou.info

です。

初めから読むには、

 

www.crosshyou.info

です。