データ分析
Photo by Dan Freeman on Unsplash www.crosshyou.info の続きです。 前回の分析で月別や年別に物価に違いがあることがわかりました。 今回は統計的にその違いが有意なのかどうかを確認します。 lm()関数で回帰分析のモデルを作りました。 carパッケージの読…
Photo by Simon Maage on Unsplash www.crosshyou.info の続きです。 このように、name_codeに対応して、sinryou_kenpoのようにそれを表す名前を付与したCSVファイルを作成しました。 これをRに読み込みます。 このデータフレームを前回作成してあるdata_ful…
Photo by Leo Mendes on Unsplash www.crosshyou.info の続きです。 前回はCSVファイルのデータをRに読み込ませました。 今回はデータを分析しやすいように整えます。 やるべきことは3つありました。 1。NAの行を削除する 2。title_code, title, name, ti…
Photo by Jeremy Thomas on Unsplash 政府統計の総合窓口、e-statのサイトを見ると、小売物価統計のデータベースが更新されたようです。 今回はこのデータをダウンロードして分析してみます。 小売物価統計調査(動向編)というのが更新されたようです。 月次[…
Photo by Ian Parker on Unsplash www.crosshyou.info の続きです。 今回は、R言語のlm()関数で重回帰分析をしてみます。 前回までは、sougou: 総合をhouse: 住居、utility: 水道・光熱費とそれぞれ一つの説明変数で回帰分析していました。今回は、house: 住…
Photo by Subtle Cinematics on Unsplash www.crosshyou.info の続きです。 今回は、 Introductory Econometrics: A Modern Approach 作者:Wooldridge, Jeffrey M. Cengage Learning Amazon Introductory Econometorics: A Modef\rn Approace 7e, by Jeffrey…
Photo by Simon Berger on Unsplash www.crosshyou.info の続きです。 前回はいろいろなグラフを作成しました。今回は分析的なことをしてみましょう。 まず、sougou: 総合物価指数と他の種類の物価の相関を調べてみます。 一番相関が無いのは、utility: 光熱…
Photo by Meduana on Unsplash www.crosshyou.info の続きです。 今回は、データの可視化、Visualization をします。 tidyverseパッケージを読み込んで、その中のggplot2でグラフを作ってみます。 まずは、それぞれの変数のヒストグラムをみてみましょうか。…
Photo by Masaaki Komori on Unsplash 久しぶりに政府統計の総合窓口(e-stat)のウェブサイトを閲覧したら、小売り物価統計調査のデータベースが更新されているようです。今回はこのデータを分析してみます。 構造編というデータベースが更新されたようです。…
Photo by Marek Studzinski on Unsplash www.crosshyou.info 今回は最後ということで、生存者の予測をしてみます。 まず、予測に使う変数だけを集めたデータフレームを作ります。 adj_age(NAを0に置換した年齢)とl_fare(運賃の対数)の他はぜんぶダミー変数で…
Photo by HyoSun Rosy Ko on Unsplash www.crosshyou.info 今回は、Embarkedです。embarkという動詞は乗り込む、乗り出すという意味のようですので、乗り込んだ港ですかね。まずはNAが何個あるかを確認します。 NAは2個ありました。どういうデータがあるかhe…
Photo by Ricky Kharawala on Unsplash www.crosshyou.info 今回は、Cabinを調べます。客室ということでしょうかね? まず、NAがあるかどうかを調べます。 1014もNAがありますね。 他のデータはどんな形態でしょうか?はじめの50個ぐらいを表示してみます。 …
Photo by David Marcu on Unsplash www.crosshyou.info の続きです。 今回は、Fareです。はじめにsummary()関数でNAの有無や最大値などを確認します。 NAが一つありましたので、これを平均値の33.295にしてしまいます。 Fareは運賃ですね。ヒストグラムでtra…
Photo by Roland Lösslein on Unsplash www.crosshyou.info 今回はTicketの分析をします。 まずは、NAの有無を確認します。 NAは無いようです。 始めの数個のデータを眺めてみます。 数字だけのデータもあれば、アルファベットのあるデータもあります。 数字…
Photo by Sharon McCutcheon on Unsplash www.crosshyou.info の続きです。今回はParchです。parent, childrenの数だと思います。 summary()関数でNAがあるかどうかなどを見てみます。 0か9までです。NAは無いようですね。 table()関数で度数をみてみます。 …
Photo by the blowup on Unsplash www.crosshyou.info の続きです。今回は、SibSpの分析です。兄弟の数ですかね。 summary()関数でNAがあるかどうかを見てみます。 NAは無いようです。兄弟の数ですから、整数ですよね。table()関数で度数を見てみます。 ほと…
Photo by Edouard TAMBA on Unsplash www.crosshyou.info 今回はAgeについて分析します。まずはsummary()関数でNAの有無や平均値などを確認します。 NAが263個もあります。最小値は0.17で最大値は80、平均値は29.88で中央値は28.00です。 NAがあるので、NAな…
Photo by Marc Schulte on Unsplash www.crosshyou.info 今回は、Sex、性別のデータを調べます。まずはtable()関数で度数を見ます。 femaleは女性で、466人です。maleは男性で843人です。 prop.table()関数で比率にしてみます。 女性が36%、男性が64%という…
Photo by Simon Berger on Unsplash www.crosshyou.info の続きです。 今回は、2番目の変数、Nameを分析します。 まずは、Nameってどんな感じか確認します。 苗字、敬称、名前の順番で並んでいます。それぞれの間は、スペースで区切られているようです。 そ…
Photo by K. Mitch Hodge on Unsplash 今回はKaggleのTitanicのデータを分析してみようと思います。生存・死亡を予測するのが目的ではなくて、単純にどんなデータなのか?というのを第一にしたいと思います。 まずは、Kaggleのウェブサイトからデータをダウ…
Photo by Mike Swigunski on Unsplash www.crosshyou.info 今回はplmパッケージを使ってパネルデータ分析をしてみたいと思います。 まずはlibrary(plm)と入力してパッケージを読み込みます。 パネルデータ分析をするには、データフレームをパネルデータフレ…
Photo by Boris Smokrovic on Unsplash www.crosshyou.info の続きです。 前回は、東京都の人口百万人当たりのあんま・マッサージ師の数を説明する時系列の回帰分析モデルを作成しました。どのモデルでも、はり・きゅう師の数が多いとあんま・マッサージ師の…
Photo by Michael on Unsplash www.crosshyou.info の続きです。 前回まではクロスセクションデータの分析でした。今回は時系列データの分析をしてみます。 まず、東京都だけのデータフレームを作成します。 filter()関数で東京都だけにしました。このデータ…
Photo by olena ivanova on Unsplash www.crosshyou.info の続きです。 前回の分析では、人口当たりのあんま・マッサージ師の数が大きく増えているところもあれば、大きく減少しているところもありました。 そこで、この人口当たりのあんま・マッサージ師の…
Photo by Dawid Zawiła on Unsplash www.crosshyou.info の続きです。 2018年のデータフレームと1975年のデータフレームを合体させましょう。 まず、上のようにして、df_1975、df_2019のそれぞれのデータフレームから必要な変数だけを抜き出しました。今回は…
Photo by Federico Di Dio photography on Unsplash www.crosshyou.info の続きです。 2018年だけのデータフレームを作成します。 このデータフレームを使って、anmassage_pop, harikyu_pop, judo_popの相関関係をみてみます。これらは順番に人口100万人当た…
Photo by Alex Machado on Unsplash 今回は都道府県別のあんま・マッサージ師、はり・きゅう師、柔道整復師数のデータを分析してみようと思います。 まず、政府統計の総合窓口、e-stat.go.jpからデータをダウンロードします。 47の都道府県を選択し、 総人口…
Photo by Andre Benz on Unsplash www.crosshyou.info の続きです。前回は大阪のコロナでの死亡やコロナ感染、コロナの致死率などのオッズ比、リスク比を算出しました。 今回は全都道府県のオッズ比、リスク比を算出しましょう。 まず、計算に必要なデータを…
Photo by Francisco Moreno on Unsplash www.crosshyou.info の続きです。 大阪の人口当たりのコロナ死亡者数はダントツに多いことがわかりました。 それでは、コロナ感染者数はどうでしょうか? まずはグラフを描いてみます。 一番多いのは沖縄、2番目は東…
Photo by Hans Isaacson on Unsplash 今日(2022-01-08)、図書館に行って週刊誌「サンデー毎日」をパラパラと紙面をめくって眺め読みしていたら、大阪府の人口当たりのコロナ死者数がダントツに高い、という記事が目に入りました。そこで、今回はNHKのデータ…