www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

データ分析

都道府県別の建築物リフォーム・リニューアル調査のデータ分析6 - Rのcaretパッケージでratioを予測するモデルを作る。その2

UnsplashのLeonid Antsiferovが撮影した写真 www.crosshyou.info の続きです。引き続き、caretパッケージでratioを予測するモデルを作成していきます。 まずは、linear regression modelで、もう少し複雑なモデルにしてみます。 l_totalの2乗項と、l_total x…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析5 - Rのcaretパッケージでratioを予測するモデルを作る。その1

UnsplashのDiego PHが撮影した写真 www.crosshyou.info 前回は、l_totalを2016年度、2017年度、2018年度で回帰分析してみました。理論ベースでもbootstrapでのシミュレーションベースでも、年度によってl_totalの平均値には違いがあることが確認できました。…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析4 - inferパッケージでBootstrapでの回帰分析

UnsplashのNick Fewingsが撮影した写真 www.crosshyou.info の続きです。前回までのデータの分析で、年度によって、l_totalの値が違うっぽいことがわかりました。今回はこれが統計定期に有意な違いなのかどうかを調べてみます。 inferパッケージで、シミュレ…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析3 - geom_point()関数で散布図を描く。top_n()関数で上位/下位を抽出する。

UnsplashのZoe Schaefferが撮影した写真 www.crosshyou.info の続きです。前回はヒストグラムで一つの変数の分布をグラフにしてみました。 今回は、散布図で二つの変数の関係性をグラフにしてみます。 まずは、l_shotoku23とl_totalです。 l_shotoku23が大き…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析2 - データをヒストグラムにして分布を可視化する。

UnsplashのMarek Piwnickiが撮影した写真 www.crosshyou.info の続きです。前回はデータをRに読み込ませるところまでやりました。 そして、shotoku17: 平成17年基準の県民1人当たり所得のデータはすべてNAであることがわかりました。なので、shotoku17は削除…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析1 - Rにデータを読み込ませる。

UnsplashのMarius Ciocirlanが撮影した写真 今回は、都道府県別の建築物リフォーム・リニューアル調査のデータを分析してみようと思います。 はじめに政府統計の総合窓口(e-Stat)からデータをCSVファイル形式でダウンロードします。 このようなCSVファイルで…

都道府県別の保護統計調査のデータ分析11 - Rのplmパッケージを使ってパネルデータ分析

UnsplashのKrzysztof Niewolnyが撮影した写真 www.crosshyou.info の続きです。 今回は、Rのplmパッケージを使って、パネルデータで回帰分析をしてみます。 まず、library()関数でplmパッケージを読み込みます。 前回作成した、df3のデータフレームをパネル…

都道府県別の保護統計調査のデータ分析10 - RでPooled Cross-Sectionsのデータ分析

UnsplashのYoksel Zokが撮影した写真 www.crosshyou.info の続きです。 今回からは、Rでパネルデータ分析をしてみます。 まず、パネルデータとして、1997年、2008年、2021年の3年間だけのデータフレームを作ってみます。 filter()関数で1997年、2008年、202…

都道府県別の保護統計調査のデータの分析9 - Rで時系列の回帰分析のSerial Correlationをテストする。

UnsplashのLeo SERRATが撮影した写真 www.crosshyou.info の続きです。 前回はRのdynlmパッケージを使い、時系列データの回帰分析をして、r_one: 1号観察割合をr_four: 4号観察の割合で回帰分析してみました。 今回は、時系列データの回帰分析で考慮しなけ…

都道府県別の保護統計調査のデータの分析8 - R言語のdynlmパッケージで時系列データの回帰分析

UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info 上のブログの続きです。 今回は、保護統計調査のデータを時系列データとして扱って、分析をしてみます。 これまでの回帰分析では、r_one: 1号観察の割合をr_four: 4号観察の割合で回帰分析してい…

東京証券取引所の市場区分再編時の区分選択にガバナンス要因が与える影響

今回の記事は、いつもとは違っています。ある学術誌に投稿したのですが、査読の結果、掲載不可になったものです。掲載不可なので、欠陥や問題点などが多くあるのかと思います。しかし、昨年の3月くらいから、コツコツと書いてきた論文なので、とりあえず、記…

都道府県別の保護統計調査のデータの分析7 - R言語で回帰分析モデルの不均一分散をチェックする。

UnsplashのMaitheli Maitraが撮影した写真 www.crosshyou.info の続きです。 前回は、回帰分析をしました。今回はその続きで、回帰分析したモデルの残差が均一分散かどうかをチェックします。 lmtestパッケージのbptest()関数で簡単にチェックできます。 bpt…

都道府県別の保護統計調査のデータ分析6 - R言語のlm()関数で回帰分析モデルを作成し、stagrgazer()関数でモデルを比較する。

UnsplashのGabriel Garcia Marengoが撮影した写真 www.crosshyou.info の続きです。 今回は回帰分析をしています。被説明変数は、r_one:1号観察の割合、説明変数は、r_two: 2号観察の割合と、r_four: 4号観察の割合にしてみます。 まず、2021年のデータだ…

都道府県別の保護統計調査のデータの分析5 - R言語のgeom_col()でバーグラフ、geom_line()でライングラフを描く。

UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info の続きです。 今回は2021年のデータを使い、前回作成した各保護観察処分の割合を見てみます。 まずは、1号観察の比率ランキングをみてみます。 那覇は6割、松江は2割ぐらいと、都道府県によって大…

都道府県別の保護統計調査のデータの分析4 - R言語のpivot_wider()でデータフレームをワイド型に変換して、散布図マトリックスを描く。

UnsplashのRoméo A.が撮影した写真 www.crosshyou.info の続きです。 今回は、データフレームを少し変形します。 このように、保護観察処分の1号、2号、3号、4号が一つの type の列におさまっているのを、 このように、1号は1号の列、2号は2号の列と…

都道府県別の保護統計調査のデータの分析3 - R言語のggplot()+geom_histogram()でヒストグラムを描く

UnsplashのEd Robertsonが撮影した写真 www.crosshyou.info の続きです。 前回と同様に、でも今度は2つの変数の組み合わせ別に基本統計量を算出します。 まずは、typeとlocationです。 typeとyearの基本統計量のデータセットを作ります。 三つ目は、location…

都道府県別の保護統計調査のデータの分析2 - Rのgroup_by(), summarize()などを使用して基本統計量をタイプ別、場所別、年別に算出する。

UnsplashのMarkus Spiskeが撮影した写真 www.crosshyou.info 上のブログ記事の続きです。 前回は、保護観察統計のデータをRに読み込ませるところまでやりました。 今回は、もう少し分析っぽいことをやりましょう。 まず、データの見た目を整えます。 typeの…

都道府県別の保護統計調査のデータの分析1 - Rでcsvファイルのデータを読み込み、tidyなデータフレームに修正する。

UnsplashのVishu Jooが撮影した写真 今回は、都道府県別の保護統計調査のデータを分析してみようと思います。 政府統計の総合窓口、e-statのウェブサイトからデータ取得します。 観察所別 開始人員累年比較 というデータをダウンロードしてみます。 このよう…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析6 - R言語でクラシフィケーション、パラメータをチューニングしてさらに正解率を高める。

UnsplashのJonatan Pieが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のcaretパッケージで、generalized liner model regressionとk-nearest neighborsの2つの方法でクラシフィケーションをしました。 k-nnはチューニングのパラメータがありま…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析5 - R言語のcaretパッケージで簡単クラシフィケーション

Unsplashのmicheile dot comが撮影した写真 www.crosshyou.info の続きです。今回はR言語でクラシフィケーション分析をしてみようと思います。 まず、caretパッケージの読み込みをします。 2019年と2020年のデータをトレーニング用のデータ、2021年のデータ…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析4 - R言語のinferパッケージを使い、平均値の信頼区間を視覚化する。

UnsplashのSimon Bergerが撮影した写真 www.crosshyou.info の続きです。 今回は、R言語のinferパッケージを使って、opm(営業利益率)の平均値の信頼区間を算出してみます。 まずは、group_by()とsummarize()とmean()を使って、製造業のopm、卸売小売業のopm…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析3 - R言語のarrange()関数で都道府県別ランキング

UnsplashのPete Wongが撮影した写真 www.crosshyou.info の続きです。前回はデータをグラフにしてみました。 今回は都道府県別のランキングを見てみましょう。 まずは、製造業のrevenueランキングです。filter()関数で製造業にしてから、arrange()関数とdesc…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析2 - R言語のggplot2パッケージで5種類のよく使うグラフを描く

UnsplashのAlex Basovが撮影した写真 www.crosshyou.info の続きです。 今回はデータをグラフにして、どんなデータなのかを把握してみたいと思います。 はじめに変数がどんなデータがあるかを確認したいと思います。 summary()関数で一覧してみます。 year_c…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析1 - R言語にデータを取り込む

UnsplashのSingle.Earthが撮影した写真 今回は都道府県別の個人企業経済調査のデータの分析をしてみたいと思います。 (振り返ってみると、2021年3月にもこのデータを分析していましたが、自分の中ではすっかり忘れていました。) 政府統計の総合窓口、www.e-s…

都道府県別の被服及び履物費のデータの分析6 - R言語のplmパッケージでパネルデータ分析。First Difference, Fixed Effect, Random Effect Estimator.

UnsplashのZoltan Tasiが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のplmパッケージを使ってパネルデータフレームを作成し、model = "pooling" にして普通のクロスセクションで回帰分析をしました 今回は、First Differenced Estimator, Fix…

都道府県別の被服及び履物費のデータの分析5 - R言語でパネルデータ分析。plmパッケージのplm()関数を使う

UnsplashのAndrey Andreyevが撮影した写真 www.crosshyou.info の続きです。 今回は、R言語でパネルデータの分析をします。 Using R for Introductory Econometrics 作者:Heiss, Florian Independently Published Amazon こちらの本を参考にしてやってみます…

都道府県別の被服及び履物費のデータの分析4 - R言語で回帰分析。カテゴリーデータを説明変数に加える。重回帰分析。

UnsplashのGwen Weustinkが撮影した写真 www.crosshyou.info の続きです。 前回はwear_shoeを被説明変数、wariaiを説明変数にして単回帰分析をしました。 今回はもう一つ説明変数を加えてみます。カテゴリーデータを加えてみましょう。 まず、カテゴリーデー…

都道府県別の被服及び履物費のデータの分析3 - R言語で回帰分析。まずは単回帰分析。15~64歳の人口割合を説明変数にする。

UnsplashのBoris Smokrovicが撮影した写真 www.crosshyou.info の続きです。 今回はR言語で回帰分析をしてみます。 被説明変数は、wear_shoe: 被服及び履物費です。回帰分析をはじめる前にwear_shoeとその他の説明変数の候補との相関関係を確認しておきまし…

都道府県別の被服及び履物費のデータの分析2 - R言語でグラフを描く。The Five Named Graphs でデータを視覚化する。

UnsplashのPierre Van Crombruggheが撮影した写真 www.crosshyou.info の続きです。 今回は、Chapter 2 Data Visualization | Statistical Inference via Data Science (moderndive.com) を参考にしてR言語のggplot2パッケージを使っていくつかグラフを描き…

都道府県別の被服及び履物費のデータの分析1 - R言語にCSVファイルのデータを読み込む。

UnsplashのNico Knaackが撮影した写真 今回は、都道府県別の被服及び履物費のデータを分析してみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 被服及び履物費を被説明変数として、人口密度や15~64歳人口割合、1人当…