Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2022-03-01から1ヶ月間の記事一覧

HistDataパッケージのGalton

Photo by Tim Rebkavets on Unsplash HistDataパッケージのGaltonのデータは、1886年、Galtonという人が親の身長と子どもの身長を表に表したデータから作られています。 まずは、データを読み込みます。 str()関数とsummary()関数をつかってデータがどんなも…

KaggleのTitanicのデータの分析11 - lm()関数で線形回帰モデルを作り生存者を予測する。gender_submission.csvより3人多く正しく予測した。

Photo by Marek Studzinski on Unsplash www.crosshyou.info 今回は最後ということで、生存者の予測をしてみます。 まず、予測に使う変数だけを集めたデータフレームを作ります。 adj_age(NAを0に置換した年齢)とl_fare(運賃の対数)の他はぜんぶダミー変数で…

KaggleのTitanicのデータの分析10 - EmbarkedがCの乗客の生存確率は55.4%

Photo by HyoSun Rosy Ko on Unsplash www.crosshyou.info 今回は、Embarkedです。embarkという動詞は乗り込む、乗り出すという意味のようですので、乗り込んだ港ですかね。まずはNAが何個あるかを確認します。 NAは2個ありました。どういうデータがあるかhe…

KaggleのTitanicのデータの分析9 - Cabinの分析、Cabinのデータが無い人の生存確率は約30%

Photo by Ricky Kharawala on Unsplash www.crosshyou.info 今回は、Cabinを調べます。客室ということでしょうかね? まず、NAがあるかどうかを調べます。 1014もNAがありますね。 他のデータはどんな形態でしょうか?はじめの50個ぐらいを表示してみます。 …

HistDataパッケージのFingerprints

Photo by Luis Quintero on Unsplash HistDataパッケージのFingerprintsデータは、Waiteという人が調べた指紋のデータです。 Waite (1915) was interested in analyzing the association of patterns in fingerprints, and produced a table of counts for 2…

KaggleのTitanicのデータの分析8- Fareの分析、Fareは高いほうが生存確率は高い。

Photo by David Marcu on Unsplash www.crosshyou.info の続きです。 今回は、Fareです。はじめにsummary()関数でNAの有無や最大値などを確認します。 NAが一つありましたので、これを平均値の33.295にしてしまいます。 Fareは運賃ですね。ヒストグラムでtra…

KaggleのTitanicのデータの分析7 - Ticketの分析、Ticketが数字だけなのか、アルファベットも入っているのかは、あまり関係ない。

Photo by Roland Lösslein on Unsplash www.crosshyou.info 今回はTicketの分析をします。 まずは、NAの有無を確認します。 NAは無いようです。 始めの数個のデータを眺めてみます。 数字だけのデータもあれば、アルファベットのあるデータもあります。 数字…

HistDataパッケージのEdgeworthDeaths

Photo by Alex Williams on Unsplash HistDataパッケージのEdgeworhDeathsのデータは、1885年、Edgeworthさんという人が発表した論文からのデータです。世界初の二元表のクロス表で、ANOVAの良い例だそうです。 早速、データを呼び出して、str()関数、head()…

KaggleのTitanicのデータの分析6 - Parchの分析、Parchは0だと生存確率は34.4%, 1だと 55.1%, 2だと50%

Photo by Sharon McCutcheon on Unsplash www.crosshyou.info の続きです。今回はParchです。parent, childrenの数だと思います。 summary()関数でNAがあるかどうかなどを見てみます。 0か9までです。NAは無いようですね。 table()関数で度数をみてみます。 …

KaggleのTitanicのデータの分析5 - SibSpの分析、SibSpが0の人の生存確率は、34.5%, SibSpが5, 8の人の生存確率は、0%

Photo by the blowup on Unsplash www.crosshyou.info の続きです。今回は、SibSpの分析です。兄弟の数ですかね。 summary()関数でNAがあるかどうかを見てみます。 NAは無いようです。兄弟の数ですから、整数ですよね。table()関数で度数を見てみます。 ほと…

KaggleのTitanicのデータの分析4 - Ageの分析、10代、40代は比較的生存確率が高い。

Photo by Edouard TAMBA on Unsplash www.crosshyou.info 今回はAgeについて分析します。まずはsummary()関数でNAの有無や平均値などを確認します。 NAが263個もあります。最小値は0.17で最大値は80、平均値は29.88で中央値は28.00です。 NAがあるので、NAな…

HistDataパッケージのDrinksWages

Photo by aisvri on Unsplash HistDataパッケージのDrinksWagesのデータセットは、Pearsonが両親のアルコール飲酒と子どもの賃金に関するデータセットです。Pearsonは両親がいっぱいアルコール飲酒している子どもの賃金は低いということを実証しようとしてい…

KaggleのTitanicのデータの分析3 - Sexの分析、女性の生存確率は74.2%, 男性の生存確率は18.9%

Photo by Marc Schulte on Unsplash www.crosshyou.info 今回は、Sex、性別のデータを調べます。まずはtable()関数で度数を見ます。 femaleは女性で、466人です。maleは男性で843人です。 prop.table()関数で比率にしてみます。 女性が36%、男性が64%という…

KaggleのTitanicのデータの分析2 - Nameの分析、牧師さんの生存確率は0%!

Photo by Simon Berger on Unsplash www.crosshyou.info の続きです。 今回は、2番目の変数、Nameを分析します。 まずは、Nameってどんな感じか確認します。 苗字、敬称、名前の順番で並んでいます。それぞれの間は、スペースで区切られているようです。 そ…