crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

読書記録- 「日本の国会議員-政治改革後の限界と可能性」 濱本真輔 著 中公新書

日本の国会議員-政治改革後の限界と可能性 (中公新書, 2691) 作者:濱本 真輔 中央公論新社 Amazon 日本の国会議員の様子を各種サーベイや公表資料からまとめたもの。 国会議員が戦後から全体としてどのように変化してきているのかを、人材、選挙、政策形成、…

全国統一の小売物価統計のデータ分析4- carパッケージのlinearHypothesis()関数で回帰分析のF検定をする。年も月も有意でない。

Photo by Dan Freeman on Unsplash www.crosshyou.info の続きです。 前回の分析で月別や年別に物価に違いがあることがわかりました。 今回は統計的にその違いが有意なのかどうかを確認します。 lm()関数で回帰分析のモデルを作りました。 carパッケージの読…

全国統一の小売物価統計のデータ分析3 - R言語のplot()関数とbarplot()関数で基本的なグラフを描く。5,6,7月が物価が安い月だった。

Photo by Simon Maage on Unsplash www.crosshyou.info の続きです。 このように、name_codeに対応して、sinryou_kenpoのようにそれを表す名前を付与したCSVファイルを作成しました。 これをRに読み込みます。 このデータフレームを前回作成してあるdata_ful…

全国統一の小売物価統計のデータ分析2 - 読み込んだデータを分析しやすいように整える。

Photo by Leo Mendes on Unsplash www.crosshyou.info の続きです。 前回はCSVファイルのデータをRに読み込ませました。 今回はデータを分析しやすいように整えます。 やるべきことは3つありました。 1。NAの行を削除する 2。title_code, title, name, ti…

全国統一の小売物価統計のデータ分析1 - R言語にCSVファイルを読み込む。

Photo by Jeremy Thomas on Unsplash 政府統計の総合窓口、e-statのサイトを見ると、小売物価統計のデータベースが更新されたようです。 今回はこのデータをダウンロードして分析してみます。 小売物価統計調査(動向編)というのが更新されたようです。 月次[…

HistDataパッケージのLangren

Photo by Gaetano Cessati on Unsplash HistDataパッケージのLangrenは17世紀の数学者・天文学者のMichael Florent van Langrenのデータです。この当時、天文学上の大きな問題の一つであった経度の正確な測定について仕事をした人です。 データを呼び込みま…

OECD Discriminatory family code data analysis 8 - Comparing some classification methods.

Photo by Marek Piwnicki on Unsplash www.crosshyou.info This post is following of above post. In this post, I will do some classification methods. Firstly, I make binary variable. I made a binary variable named high, that shows 1 when lpc_g…

OECD Discriminatory family code data analysis 7 - Adding Unemployment data to linear regression and using stargazer() function to compare regression models.

Photo by henry perks on Unsplash www.crosshyou.info This post is following of above post. I load Unenployment rate data. I get this data from OECD we site. Then, I filter only year == 2019. Next, I will merge df4 data frame and unem_2019 d…

OECD Discriminatory family code data analysis 6 - Adding Inflation data to linear regression, still "atwm" and "em" are significant.

Photo by Alexander Schimmeck on Unsplash www.crosshyou.info This post is following of above post.In this post I will add inflation data into previous post's linear regression model.Firstly, I will load inflation data. I got the inflation d…

HistDataパッケージのJevons

Photo by Setu Chhaya on Unsplash HistDataパッケージのJevonsというデータは、1871年のNatureという雑誌に掲載されたW. Stanley Jevonsの実験のデータです。 黒いビーズを複数個、パッと見せて、何個だったか答えさせるという実験です。人間が一度に認識で…

OECD Discriminatory family code data analysis 5 - Linear regression using R. Attitudes Towards Working Mother, Early Marriage and Per Capita GDP

Photo by Bjorn Pierre on Unsplash www.crosshyou.info This post is following of above post.In this post, I will do linear regression analysis with R. First, I make a data frame which have "atwm": Attitudes Towards Working Mothers only. Seco…

OECD Discriminatory family code data analysis 4 - Bootstrap method for getting Confidence Interval with R

Photo by Jeremy Santana on Unsplash www.crosshyou.info This post is following of above post.In the previous post, I get Confidence Interval using standard error. In this post, I will get Confidence Interval using Bootstrap method. Bootstra…

OECD Discriminatory family code data analysis 3 - average and confidence intervals using R

Photo by Alexander Schimmeck on Unsplash www.crosshyou.info This is following of above post.In this post, I will calculating confidence intervals for "atwm"; Attitudes Towards Working Mothers and "em",; Early Marriage. Let's begin. We can …

HistDataパッケージのHalleyLifeTable

Photo by Jasper Garratt on Unsplash HIstDataパッケージのHalleyLifeTableはハレー彗星で有名な、エドモンド・ハレーが調べた年齢と死亡率のデータです。 天文に関することの他にこんなこともしていたのですね。 早速データを呼び出します。 84行、4列のデ…

OECD Discriminatory family code data analysis 2 - Making a histogram, a boxplot and an ECDF plot with R

Photo by Kentaro Toma on Unsplash www.crosshyou.info This post is following of the above post.In this post, I will make histograms, boxplots and ECDF plots with R. Before making those plots, I made some changes to the dataframe. I changed …

読書記録 - 「物理学はいかに創られたか - 初期の観念から相対性理論及び量子論への思想の発展」 (上巻・下巻 ) アインシュタイン、インフェルト 著 岩波新書

物理学はいかに創られたか〈上,下巻〉―初期の観念から相対性理論及び量子論への思想の発展 (1950年) (岩波新書) 作者:アインシュタイン,インフェルト Amazon 抽象的な話が多く、よくわからなかったが、下巻の最後のほうに 「私たちの理論的の構成によってこ…

OECD Discriminatory family code data analysis 1 - load CSV file with read_csv() fundtion and display dataframe summary with summary() function in R.

Photo by Redd on Unsplash I will analyize ODEC Discriminatory family code. Inequality - Discriminatory family code - OECD Data I downloaded CSV file likde below from aboce web site. Let's analyze with R. Before load the CSV file, I load ti…

小売物価統計調査のデータ分析5 - R言語のlm()関数で重回帰分析をする。そして、scatterplot3d()関数で3D散布図を描く

Photo by Ian Parker on Unsplash www.crosshyou.info の続きです。 今回は、R言語のlm()関数で重回帰分析をしてみます。 前回までは、sougou: 総合をhouse: 住居、utility: 水道・光熱費とそれぞれ一つの説明変数で回帰分析していました。今回は、house: 住…

HistDataパッケージのGuerry

Photo by Boris Ho on Unsplash HistDataパッケージのGuerryのデータは、Guerryという人が1833年に世界で初めて犯罪や自殺など社会学的なデータを組織的に集めて分析したデータです。 データを呼び出してみます。 86の観測と23の変数があります。 ヘルプのコ…

小売物価統計調査のデータ分析4- OLSの3つの特性とSST(total sum of squares), SSE(explained sum of squares), SSR(residual sum of squares), SER(standard error of the regression), 説明変数の標準誤差

Photo by Subtle Cinematics on Unsplash www.crosshyou.info の続きです。 今回は、 Introductory Econometrics: A Modern Approach 作者:Wooldridge, Jeffrey M. Cengage Learning Amazon Introductory Econometorics: A Modef\rn Approace 7e, by Jeffrey…

小売物価統計調査のデータ分析3 - R言語のlm()関数で単回帰分析。マニュアル計算でも切片と傾きを求める。

Photo by Simon Berger on Unsplash www.crosshyou.info の続きです。 前回はいろいろなグラフを作成しました。今回は分析的なことをしてみましょう。 まず、sougou: 総合物価指数と他の種類の物価の相関を調べてみます。 一番相関が無いのは、utility: 光熱…

HistDataパッケージのGaltonFamilies

Photo by Alan Emery on Unsplash HistDataパッケージのGaltonFamiliesのデータは、1886年、Galtonが作成したクロス表のデータを基に作成されたものです。 まずは、データを呼び出し、str()関数、head()関数を使ってみます。 934行8列のデータフレームです。…

小売物価統計調査のデータ分析2 - R言語のggplot2パッケージでヒストグラム、箱ひげ図、信頼区間のグラフを描く。

Photo by Meduana on Unsplash www.crosshyou.info の続きです。 今回は、データの可視化、Visualization をします。 tidyverseパッケージを読み込んで、その中のggplot2でグラフを作ってみます。 まずは、それぞれの変数のヒストグラムをみてみましょうか。…

小売物価統計調査のデータ分析1 - R言語にデータを読み込む。

Photo by Masaaki Komori on Unsplash 久しぶりに政府統計の総合窓口(e-stat)のウェブサイトを閲覧したら、小売り物価統計調査のデータベースが更新されているようです。今回はこのデータを分析してみます。 構造編というデータベースが更新されたようです。…

HistDataパッケージのGalton

Photo by Tim Rebkavets on Unsplash HistDataパッケージのGaltonのデータは、1886年、Galtonという人が親の身長と子どもの身長を表に表したデータから作られています。 まずは、データを読み込みます。 str()関数とsummary()関数をつかってデータがどんなも…

KaggleのTitanicのデータの分析11 - lm()関数で線形回帰モデルを作り生存者を予測する。gender_submission.csvより3人多く正しく予測した。

Photo by Marek Studzinski on Unsplash www.crosshyou.info 今回は最後ということで、生存者の予測をしてみます。 まず、予測に使う変数だけを集めたデータフレームを作ります。 adj_age(NAを0に置換した年齢)とl_fare(運賃の対数)の他はぜんぶダミー変数で…

KaggleのTitanicのデータの分析10 - EmbarkedがCの乗客の生存確率は55.4%

Photo by HyoSun Rosy Ko on Unsplash www.crosshyou.info 今回は、Embarkedです。embarkという動詞は乗り込む、乗り出すという意味のようですので、乗り込んだ港ですかね。まずはNAが何個あるかを確認します。 NAは2個ありました。どういうデータがあるかhe…

KaggleのTitanicのデータの分析9 - Cabinの分析、Cabinのデータが無い人の生存確率は約30%

Photo by Ricky Kharawala on Unsplash www.crosshyou.info 今回は、Cabinを調べます。客室ということでしょうかね? まず、NAがあるかどうかを調べます。 1014もNAがありますね。 他のデータはどんな形態でしょうか?はじめの50個ぐらいを表示してみます。 …

HistDataパッケージのFingerprints

Photo by Luis Quintero on Unsplash HistDataパッケージのFingerprintsデータは、Waiteという人が調べた指紋のデータです。 Waite (1915) was interested in analyzing the association of patterns in fingerprints, and produced a table of counts for 2…

KaggleのTitanicのデータの分析8- Fareの分析、Fareは高いほうが生存確率は高い。

Photo by David Marcu on Unsplash www.crosshyou.info の続きです。 今回は、Fareです。はじめにsummary()関数でNAの有無や最大値などを確認します。 NAが一つありましたので、これを平均値の33.295にしてしまいます。 Fareは運賃ですね。ヒストグラムでtra…