www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2022-01-01から1年間の記事一覧

HistDataパッケージのLangren

Photo by Gaetano Cessati on Unsplash HistDataパッケージのLangrenは17世紀の数学者・天文学者のMichael Florent van Langrenのデータです。この当時、天文学上の大きな問題の一つであった経度の正確な測定について仕事をした人です。 データを呼び込みま…

OECD Discriminatory family code data analysis 8 - Comparing some classification methods.

Photo by Marek Piwnicki on Unsplash www.crosshyou.info This post is following of above post. In this post, I will do some classification methods. Firstly, I make binary variable. I made a binary variable named high, that shows 1 when lpc_g…

OECD Discriminatory family code data analysis 7 - Adding Unemployment data to linear regression and using stargazer() function to compare regression models.

Photo by henry perks on Unsplash www.crosshyou.info This post is following of above post. I load Unenployment rate data. I get this data from OECD we site. Then, I filter only year == 2019. Next, I will merge df4 data frame and unem_2019 d…

OECD Discriminatory family code data analysis 6 - Adding Inflation data to linear regression, still "atwm" and "em" are significant.

Photo by Alexander Schimmeck on Unsplash www.crosshyou.info This post is following of above post.In this post I will add inflation data into previous post's linear regression model.Firstly, I will load inflation data. I got the inflation d…

HistDataパッケージのJevons

Photo by Setu Chhaya on Unsplash HistDataパッケージのJevonsというデータは、1871年のNatureという雑誌に掲載されたW. Stanley Jevonsの実験のデータです。 黒いビーズを複数個、パッと見せて、何個だったか答えさせるという実験です。人間が一度に認識で…

OECD Discriminatory family code data analysis 5 - Linear regression using R. Attitudes Towards Working Mother, Early Marriage and Per Capita GDP

Photo by Bjorn Pierre on Unsplash www.crosshyou.info This post is following of above post.In this post, I will do linear regression analysis with R. First, I make a data frame which have "atwm": Attitudes Towards Working Mothers only. Seco…

OECD Discriminatory family code data analysis 4 - Bootstrap method for getting Confidence Interval with R

Photo by Jeremy Santana on Unsplash www.crosshyou.info This post is following of above post.In the previous post, I get Confidence Interval using standard error. In this post, I will get Confidence Interval using Bootstrap method. Bootstra…

OECD Discriminatory family code data analysis 3 - average and confidence intervals using R

Photo by Alexander Schimmeck on Unsplash www.crosshyou.info This is following of above post.In this post, I will calculating confidence intervals for "atwm"; Attitudes Towards Working Mothers and "em",; Early Marriage. Let's begin. We can …

HistDataパッケージのHalleyLifeTable

Photo by Jasper Garratt on Unsplash HIstDataパッケージのHalleyLifeTableはハレー彗星で有名な、エドモンド・ハレーが調べた年齢と死亡率のデータです。 天文に関することの他にこんなこともしていたのですね。 早速データを呼び出します。 84行、4列のデ…

OECD Discriminatory family code data analysis 2 - Making a histogram, a boxplot and an ECDF plot with R

Photo by Kentaro Toma on Unsplash www.crosshyou.info This post is following of the above post.In this post, I will make histograms, boxplots and ECDF plots with R. Before making those plots, I made some changes to the dataframe. I changed …

読書記録 - 「物理学はいかに創られたか - 初期の観念から相対性理論及び量子論への思想の発展」 (上巻・下巻 ) アインシュタイン、インフェルト 著 岩波新書

物理学はいかに創られたか〈上,下巻〉―初期の観念から相対性理論及び量子論への思想の発展 (1950年) (岩波新書) 作者:アインシュタイン,インフェルト Amazon 抽象的な話が多く、よくわからなかったが、下巻の最後のほうに 「私たちの理論的の構成によってこ…

OECD Discriminatory family code data analysis 1 - load CSV file with read_csv() fundtion and display dataframe summary with summary() function in R.

Photo by Redd on Unsplash I will analyize ODEC Discriminatory family code. Inequality - Discriminatory family code - OECD Data I downloaded CSV file likde below from aboce web site. Let's analyze with R. Before load the CSV file, I load ti…

小売物価統計調査のデータ分析5 - R言語のlm()関数で重回帰分析をする。そして、scatterplot3d()関数で3D散布図を描く

Photo by Ian Parker on Unsplash www.crosshyou.info の続きです。 今回は、R言語のlm()関数で重回帰分析をしてみます。 前回までは、sougou: 総合をhouse: 住居、utility: 水道・光熱費とそれぞれ一つの説明変数で回帰分析していました。今回は、house: 住…

HistDataパッケージのGuerry

Photo by Boris Ho on Unsplash HistDataパッケージのGuerryのデータは、Guerryという人が1833年に世界で初めて犯罪や自殺など社会学的なデータを組織的に集めて分析したデータです。 データを呼び出してみます。 86の観測と23の変数があります。 ヘルプのコ…

小売物価統計調査のデータ分析4- OLSの3つの特性とSST(total sum of squares), SSE(explained sum of squares), SSR(residual sum of squares), SER(standard error of the regression), 説明変数の標準誤差

Photo by Subtle Cinematics on Unsplash www.crosshyou.info の続きです。 今回は、 Introductory Econometrics: A Modern Approach 作者:Wooldridge, Jeffrey M. Cengage Learning Amazon Introductory Econometorics: A Modef\rn Approace 7e, by Jeffrey…

小売物価統計調査のデータ分析3 - R言語のlm()関数で単回帰分析。マニュアル計算でも切片と傾きを求める。

Photo by Simon Berger on Unsplash www.crosshyou.info の続きです。 前回はいろいろなグラフを作成しました。今回は分析的なことをしてみましょう。 まず、sougou: 総合物価指数と他の種類の物価の相関を調べてみます。 一番相関が無いのは、utility: 光熱…

HistDataパッケージのGaltonFamilies

Photo by Alan Emery on Unsplash HistDataパッケージのGaltonFamiliesのデータは、1886年、Galtonが作成したクロス表のデータを基に作成されたものです。 まずは、データを呼び出し、str()関数、head()関数を使ってみます。 934行8列のデータフレームです。…

小売物価統計調査のデータ分析2 - R言語のggplot2パッケージでヒストグラム、箱ひげ図、信頼区間のグラフを描く。

Photo by Meduana on Unsplash www.crosshyou.info の続きです。 今回は、データの可視化、Visualization をします。 tidyverseパッケージを読み込んで、その中のggplot2でグラフを作ってみます。 まずは、それぞれの変数のヒストグラムをみてみましょうか。…

小売物価統計調査のデータ分析1 - R言語にデータを読み込む。

Photo by Masaaki Komori on Unsplash 久しぶりに政府統計の総合窓口(e-stat)のウェブサイトを閲覧したら、小売り物価統計調査のデータベースが更新されているようです。今回はこのデータを分析してみます。 構造編というデータベースが更新されたようです。…

HistDataパッケージのGalton

Photo by Tim Rebkavets on Unsplash HistDataパッケージのGaltonのデータは、1886年、Galtonという人が親の身長と子どもの身長を表に表したデータから作られています。 まずは、データを読み込みます。 str()関数とsummary()関数をつかってデータがどんなも…

KaggleのTitanicのデータの分析11 - lm()関数で線形回帰モデルを作り生存者を予測する。gender_submission.csvより3人多く正しく予測した。

Photo by Marek Studzinski on Unsplash www.crosshyou.info 今回は最後ということで、生存者の予測をしてみます。 まず、予測に使う変数だけを集めたデータフレームを作ります。 adj_age(NAを0に置換した年齢)とl_fare(運賃の対数)の他はぜんぶダミー変数で…

KaggleのTitanicのデータの分析10 - EmbarkedがCの乗客の生存確率は55.4%

Photo by HyoSun Rosy Ko on Unsplash www.crosshyou.info 今回は、Embarkedです。embarkという動詞は乗り込む、乗り出すという意味のようですので、乗り込んだ港ですかね。まずはNAが何個あるかを確認します。 NAは2個ありました。どういうデータがあるかhe…

KaggleのTitanicのデータの分析9 - Cabinの分析、Cabinのデータが無い人の生存確率は約30%

Photo by Ricky Kharawala on Unsplash www.crosshyou.info 今回は、Cabinを調べます。客室ということでしょうかね? まず、NAがあるかどうかを調べます。 1014もNAがありますね。 他のデータはどんな形態でしょうか?はじめの50個ぐらいを表示してみます。 …

HistDataパッケージのFingerprints

Photo by Luis Quintero on Unsplash HistDataパッケージのFingerprintsデータは、Waiteという人が調べた指紋のデータです。 Waite (1915) was interested in analyzing the association of patterns in fingerprints, and produced a table of counts for 2…

KaggleのTitanicのデータの分析8- Fareの分析、Fareは高いほうが生存確率は高い。

Photo by David Marcu on Unsplash www.crosshyou.info の続きです。 今回は、Fareです。はじめにsummary()関数でNAの有無や最大値などを確認します。 NAが一つありましたので、これを平均値の33.295にしてしまいます。 Fareは運賃ですね。ヒストグラムでtra…

KaggleのTitanicのデータの分析7 - Ticketの分析、Ticketが数字だけなのか、アルファベットも入っているのかは、あまり関係ない。

Photo by Roland Lösslein on Unsplash www.crosshyou.info 今回はTicketの分析をします。 まずは、NAの有無を確認します。 NAは無いようです。 始めの数個のデータを眺めてみます。 数字だけのデータもあれば、アルファベットのあるデータもあります。 数字…

HistDataパッケージのEdgeworthDeaths

Photo by Alex Williams on Unsplash HistDataパッケージのEdgeworhDeathsのデータは、1885年、Edgeworthさんという人が発表した論文からのデータです。世界初の二元表のクロス表で、ANOVAの良い例だそうです。 早速、データを呼び出して、str()関数、head()…

KaggleのTitanicのデータの分析6 - Parchの分析、Parchは0だと生存確率は34.4%, 1だと 55.1%, 2だと50%

Photo by Sharon McCutcheon on Unsplash www.crosshyou.info の続きです。今回はParchです。parent, childrenの数だと思います。 summary()関数でNAがあるかどうかなどを見てみます。 0か9までです。NAは無いようですね。 table()関数で度数をみてみます。 …

KaggleのTitanicのデータの分析5 - SibSpの分析、SibSpが0の人の生存確率は、34.5%, SibSpが5, 8の人の生存確率は、0%

Photo by the blowup on Unsplash www.crosshyou.info の続きです。今回は、SibSpの分析です。兄弟の数ですかね。 summary()関数でNAがあるかどうかを見てみます。 NAは無いようです。兄弟の数ですから、整数ですよね。table()関数で度数を見てみます。 ほと…

KaggleのTitanicのデータの分析4 - Ageの分析、10代、40代は比較的生存確率が高い。

Photo by Edouard TAMBA on Unsplash www.crosshyou.info 今回はAgeについて分析します。まずはsummary()関数でNAの有無や平均値などを確認します。 NAが263個もあります。最小値は0.17で最大値は80、平均値は29.88で中央値は28.00です。 NAがあるので、NAな…