crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

全国統一の小売物価統計のデータ分析4- carパッケージのlinearHypothesis()関数で回帰分析のF検定をする。年も月も有意でない。

Photo by Dan Freeman on Unsplash www.crosshyou.info の続きです。 前回の分析で月別や年別に物価に違いがあることがわかりました。 今回は統計的にその違いが有意なのかどうかを確認します。 lm()関数で回帰分析のモデルを作りました。 carパッケージの読…

全国統一の小売物価統計のデータ分析3 - R言語のplot()関数とbarplot()関数で基本的なグラフを描く。5,6,7月が物価が安い月だった。

Photo by Simon Maage on Unsplash www.crosshyou.info の続きです。 このように、name_codeに対応して、sinryou_kenpoのようにそれを表す名前を付与したCSVファイルを作成しました。 これをRに読み込みます。 このデータフレームを前回作成してあるdata_ful…

全国統一の小売物価統計のデータ分析2 - 読み込んだデータを分析しやすいように整える。

Photo by Leo Mendes on Unsplash www.crosshyou.info の続きです。 前回はCSVファイルのデータをRに読み込ませました。 今回はデータを分析しやすいように整えます。 やるべきことは3つありました。 1。NAの行を削除する 2。title_code, title, name, ti…

全国統一の小売物価統計のデータ分析1 - R言語にCSVファイルを読み込む。

Photo by Jeremy Thomas on Unsplash 政府統計の総合窓口、e-statのサイトを見ると、小売物価統計のデータベースが更新されたようです。 今回はこのデータをダウンロードして分析してみます。 小売物価統計調査(動向編)というのが更新されたようです。 月次[…

小売物価統計調査のデータ分析5 - R言語のlm()関数で重回帰分析をする。そして、scatterplot3d()関数で3D散布図を描く

Photo by Ian Parker on Unsplash www.crosshyou.info の続きです。 今回は、R言語のlm()関数で重回帰分析をしてみます。 前回までは、sougou: 総合をhouse: 住居、utility: 水道・光熱費とそれぞれ一つの説明変数で回帰分析していました。今回は、house: 住…

小売物価統計調査のデータ分析4- OLSの3つの特性とSST(total sum of squares), SSE(explained sum of squares), SSR(residual sum of squares), SER(standard error of the regression), 説明変数の標準誤差

Photo by Subtle Cinematics on Unsplash www.crosshyou.info の続きです。 今回は、 Introductory Econometrics: A Modern Approach 作者:Wooldridge, Jeffrey M. Cengage Learning Amazon Introductory Econometorics: A Modef\rn Approace 7e, by Jeffrey…

小売物価統計調査のデータ分析3 - R言語のlm()関数で単回帰分析。マニュアル計算でも切片と傾きを求める。

Photo by Simon Berger on Unsplash www.crosshyou.info の続きです。 前回はいろいろなグラフを作成しました。今回は分析的なことをしてみましょう。 まず、sougou: 総合物価指数と他の種類の物価の相関を調べてみます。 一番相関が無いのは、utility: 光熱…

小売物価統計調査のデータ分析2 - R言語のggplot2パッケージでヒストグラム、箱ひげ図、信頼区間のグラフを描く。

Photo by Meduana on Unsplash www.crosshyou.info の続きです。 今回は、データの可視化、Visualization をします。 tidyverseパッケージを読み込んで、その中のggplot2でグラフを作ってみます。 まずは、それぞれの変数のヒストグラムをみてみましょうか。…

小売物価統計調査のデータ分析1 - R言語にデータを読み込む。

Photo by Masaaki Komori on Unsplash 久しぶりに政府統計の総合窓口(e-stat)のウェブサイトを閲覧したら、小売り物価統計調査のデータベースが更新されているようです。今回はこのデータを分析してみます。 構造編というデータベースが更新されたようです。…

KaggleのTitanicのデータの分析11 - lm()関数で線形回帰モデルを作り生存者を予測する。gender_submission.csvより3人多く正しく予測した。

Photo by Marek Studzinski on Unsplash www.crosshyou.info 今回は最後ということで、生存者の予測をしてみます。 まず、予測に使う変数だけを集めたデータフレームを作ります。 adj_age(NAを0に置換した年齢)とl_fare(運賃の対数)の他はぜんぶダミー変数で…

KaggleのTitanicのデータの分析10 - EmbarkedがCの乗客の生存確率は55.4%

Photo by HyoSun Rosy Ko on Unsplash www.crosshyou.info 今回は、Embarkedです。embarkという動詞は乗り込む、乗り出すという意味のようですので、乗り込んだ港ですかね。まずはNAが何個あるかを確認します。 NAは2個ありました。どういうデータがあるかhe…

KaggleのTitanicのデータの分析9 - Cabinの分析、Cabinのデータが無い人の生存確率は約30%

Photo by Ricky Kharawala on Unsplash www.crosshyou.info 今回は、Cabinを調べます。客室ということでしょうかね? まず、NAがあるかどうかを調べます。 1014もNAがありますね。 他のデータはどんな形態でしょうか?はじめの50個ぐらいを表示してみます。 …

KaggleのTitanicのデータの分析8- Fareの分析、Fareは高いほうが生存確率は高い。

Photo by David Marcu on Unsplash www.crosshyou.info の続きです。 今回は、Fareです。はじめにsummary()関数でNAの有無や最大値などを確認します。 NAが一つありましたので、これを平均値の33.295にしてしまいます。 Fareは運賃ですね。ヒストグラムでtra…

KaggleのTitanicのデータの分析7 - Ticketの分析、Ticketが数字だけなのか、アルファベットも入っているのかは、あまり関係ない。

Photo by Roland Lösslein on Unsplash www.crosshyou.info 今回はTicketの分析をします。 まずは、NAの有無を確認します。 NAは無いようです。 始めの数個のデータを眺めてみます。 数字だけのデータもあれば、アルファベットのあるデータもあります。 数字…

KaggleのTitanicのデータの分析6 - Parchの分析、Parchは0だと生存確率は34.4%, 1だと 55.1%, 2だと50%

Photo by Sharon McCutcheon on Unsplash www.crosshyou.info の続きです。今回はParchです。parent, childrenの数だと思います。 summary()関数でNAがあるかどうかなどを見てみます。 0か9までです。NAは無いようですね。 table()関数で度数をみてみます。 …

KaggleのTitanicのデータの分析5 - SibSpの分析、SibSpが0の人の生存確率は、34.5%, SibSpが5, 8の人の生存確率は、0%

Photo by the blowup on Unsplash www.crosshyou.info の続きです。今回は、SibSpの分析です。兄弟の数ですかね。 summary()関数でNAがあるかどうかを見てみます。 NAは無いようです。兄弟の数ですから、整数ですよね。table()関数で度数を見てみます。 ほと…

KaggleのTitanicのデータの分析4 - Ageの分析、10代、40代は比較的生存確率が高い。

Photo by Edouard TAMBA on Unsplash www.crosshyou.info 今回はAgeについて分析します。まずはsummary()関数でNAの有無や平均値などを確認します。 NAが263個もあります。最小値は0.17で最大値は80、平均値は29.88で中央値は28.00です。 NAがあるので、NAな…

KaggleのTitanicのデータの分析3 - Sexの分析、女性の生存確率は74.2%, 男性の生存確率は18.9%

Photo by Marc Schulte on Unsplash www.crosshyou.info 今回は、Sex、性別のデータを調べます。まずはtable()関数で度数を見ます。 femaleは女性で、466人です。maleは男性で843人です。 prop.table()関数で比率にしてみます。 女性が36%、男性が64%という…

KaggleのTitanicのデータの分析2 - Nameの分析、牧師さんの生存確率は0%!

Photo by Simon Berger on Unsplash www.crosshyou.info の続きです。 今回は、2番目の変数、Nameを分析します。 まずは、Nameってどんな感じか確認します。 苗字、敬称、名前の順番で並んでいます。それぞれの間は、スペースで区切られているようです。 そ…

KaggleのTitanicのデータの分析1- Pclassで1だと生存率は63%, 2だと47%, 3だと24%

Photo by K. Mitch Hodge on Unsplash 今回はKaggleのTitanicのデータを分析してみようと思います。生存・死亡を予測するのが目的ではなくて、単純にどんなデータなのか?というのを第一にしたいと思います。 まずは、Kaggleのウェブサイトからデータをダウ…

都道府県別のあんま・マッサージ師、はり・きゅう師、柔道整復師数のデータの分析8 - Rのplmパッケージでパネルデータ分析をする。pooling法、first difference法、fixed effect法、random effect法の4つの方法を実行する。

Photo by Mike Swigunski on Unsplash www.crosshyou.info 今回はplmパッケージを使ってパネルデータ分析をしてみたいと思います。 まずはlibrary(plm)と入力してパッケージを読み込みます。 パネルデータ分析をするには、データフレームをパネルデータフレ…

都道府県別のあんま・マッサージ師、はり・きゅう師、柔道整復師数のデータの分析7 - 時系列の回帰分析の残差の系列相関の有無を調べる。

Photo by Boris Smokrovic on Unsplash www.crosshyou.info の続きです。 前回は、東京都の人口百万人当たりのあんま・マッサージ師の数を説明する時系列の回帰分析モデルを作成しました。どのモデルでも、はり・きゅう師の数が多いとあんま・マッサージ師の…

都道府県別のあんま・マッサージ師、はり・きゅう師、柔道整復師数のデータの分析6 - Rのts()関数で時系列オブジェクトを作り、dynlm()関数で時系列データの回帰分析をする。

Photo by Michael on Unsplash www.crosshyou.info の続きです。 前回まではクロスセクションデータの分析でした。今回は時系列データの分析をしてみます。 まず、東京都だけのデータフレームを作成します。 filter()関数で東京都だけにしました。このデータ…

都道府県別のあんま・マッサージ師、はり・きゅう師、柔道整復師数のデータの分析4 - Rのlm()関数で単回帰分析をする。broomパッケージやlmtestパッケージも使用。

Photo by olena ivanova on Unsplash www.crosshyou.info の続きです。 前回の分析では、人口当たりのあんま・マッサージ師の数が大きく増えているところもあれば、大きく減少しているところもありました。 そこで、この人口当たりのあんま・マッサージ師の…

都道府県別のあんま・マッサージ師、はり・きゅう師、柔道整復師数のデータの分析3 - 1975年のデータと2018年のデータの比較。

Photo by Dawid Zawiła on Unsplash www.crosshyou.info の続きです。 2018年のデータフレームと1975年のデータフレームを合体させましょう。 まず、上のようにして、df_1975、df_2019のそれぞれのデータフレームから必要な変数だけを抜き出しました。今回は…

都道府県別のあんま・マッサージ師、はり・きゅう師、柔道整復師数のデータの分析2 - 人口当たりの数の散布図をplot()関数で描く。

Photo by Federico Di Dio photography on Unsplash www.crosshyou.info の続きです。 2018年だけのデータフレームを作成します。 このデータフレームを使って、anmassage_pop, harikyu_pop, judo_popの相関関係をみてみます。これらは順番に人口100万人当た…

都道府県別のあんま・マッサージ師、はり・きゅう師、柔道整復師数のデータの分析1 - 人口当たりでは、大阪がはり・きゅう師、柔道整復師数が一番多い。

Photo by Alex Machado on Unsplash 今回は都道府県別のあんま・マッサージ師、はり・きゅう師、柔道整復師数のデータを分析してみようと思います。 まず、政府統計の総合窓口、e-stat.go.jpからデータをダウンロードします。 47の都道府県を選択し、 総人口…

都道府県別のNHKのコロナ感染者データの分析3 - 全都道府県のコロナでの死亡、コロナ感染、致死率のオッズ比とリスク比を算出する。

Photo by Andre Benz on Unsplash www.crosshyou.info の続きです。前回は大阪のコロナでの死亡やコロナ感染、コロナの致死率などのオッズ比、リスク比を算出しました。 今回は全都道府県のオッズ比、リスク比を算出しましょう。 まず、計算に必要なデータを…

都道府県別のNHKのコロナ感染者データの分析2 - 大阪のコロナでの死亡、コロナ感染、コロナ致死率のリスク比を計算する。

Photo by Francisco Moreno on Unsplash www.crosshyou.info の続きです。 大阪の人口当たりのコロナ死亡者数はダントツに多いことがわかりました。 それでは、コロナ感染者数はどうでしょうか? まずはグラフを描いてみます。 一番多いのは沖縄、2番目は東…

都道府県別のNHKのコロナ感染者データの分析1 - 大阪の人口当たりのコロナ死亡者数はダントツに多い。

Photo by Hans Isaacson on Unsplash 今日(2022-01-08)、図書館に行って週刊誌「サンデー毎日」をパラパラと紙面をめくって眺め読みしていたら、大阪府の人口当たりのコロナ死者数がダントツに高い、という記事が目に入りました。そこで、今回はNHKのデータ…