www.crosshyou.info

政府統計の総合窓口のデータや、OECDのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

データ分析

都道府県別の世帯土地統計のデータの分析7 - Rのdist()関数、hclust()関数、plot()関数、cutree()関数で階層的クラスタリング分析をする。

UnsplashのRap Dela Reaが撮影した写真 www.crosshyou.info の続きです。 今回は、Rで階層的クラスタリング分析をしてみます。 まず、クラスタリング分析をするためのデータフレームを用意します。 setaiの種類を総数だけにして、l_shoyu, l_noshoyu, l_hoka…

都道府県別の世帯土地統計のデータの分析6 - Rで回帰分析。所得の大きいところほど土地の所有世帯数は多い。

UnsplashのAlfons Moralesが撮影した写真 www.crosshyou.info の続きです。前回は2つの変数どうしの相関係数を調べて、信頼区間をcor.test()関数とブートストラップ法で算出しました。 今回は、回帰分析をしてみようと思います。 回帰分析の非説明変数は、l…

都道府県別の世帯土地統計のデータの分析5 - Rのcor.test()関数とブートストラップ法で相関係数の信頼区間を調べる

Unsplashの2H Mediaが撮影した写真 www.crosshyou.info の続きです。 前回は、各変数の上位と下位の都道府県を見てみました。 今回は2つの変数間の相関係数について見てみます。 まず。データフレームを世帯の種類が「総数」だけにします。世帯の種類には注…

都道府県別の世帯土地統計のデータの分析4 - Rのfilter()関数や、select()関数でデータフレームを絞り込み、arrange()関数でデータフレームを並び替える。

UnsplashのWolfgang Hasselmannが撮影した写真 www.crosshyou.info の続きです。 今回は、各変数のランキングを見てみようと思います。 まずは、totalのランキングです。setaiの種類を「総数」だけに絞ってランキングします。 東京都、大阪府、神奈川県、愛…

都道府県別の世帯土地統計のデータの分析3 - Rのggplot() + geom_point()関数で、一人当たりの県民所得と土地の所有世帯数の散布図を描く。

UnsplashのShana Van Roosbroekが撮影した写真 www.crosshyou.info の続きです。 前回はそれぞれの変数の分布を見るために、ヒストグラムを作成しました。 今回は2つの変数の関係性を見るために、散布図を描いてみます。 まず、l_totalとshotokuをみてみま…

都道府県別の世帯土地統計のデータの分析2 - Rのggplot() + geom_histogram()関数で各変数のヒストグラムを描く。

UnsplashのGuillaume Chabrolが撮影した写真 www.crosshyou.info の続きです。 前回はデータのCSVファイルをRにインポートしました。 まず、skimrパッケージのskim()関数で各変数の基本統計量を一覧します。 282行、10列のデータフレームで、文字列型の変数…

都道府県別の世帯土地統計のデータの分析1 - Rのread_csv()関数でCSVファイルを読み込み、inner_join()関数でデータフレームを統合する。

UnsplashのJasmin Maagが撮影した写真 今回は、都道府県別の世帯土地統計のデータを分析してみようと思います。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。 たくさんデータセットがありましたが、今回は一番上の「世帯人員、土地の所有…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析9 - Rでパネルデータ分析

UnsplashのYouSsef NaDramが撮影した写真 www.crosshyou.info の続きです。前回は、l_total: リフォーム・リニューアルの金額の自然対数値を被説明変数、l_shotoku23: 県民1人当たり所得の自然対数値、l_total_prev: 前年のl_total、yearを説明変数にして回…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析8 - 前年の被説明変数値を含めての回帰分析すると、結果は全く違った結果になった。

UnsplashのArham Jainが撮影した写真 www.crosshyou.info の続きです。前回は、l_total: 建築物リフォーム・リニューアルの金額の自然対数値をl_shotoku23: 県民1人当たり所得とyear: 調査年度の2つの説明変数で回帰分析してみました。 今回は、前年度のl_to…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析7 - リフォーム・リニューアルの金額を県民1人当たり所得で回帰分析してみる。

UnsplashのRedd Fが撮影した写真 www.crosshyou.info の続きです。 今回は、l_total: リフォーム・リニューアルの金額の対数変換値値をl_shotoku23: 平成23年基準の県民1人当たり所得の対数変換値で回帰分析してみます。1人当たり所得の所得が大きいほど、リ…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析6 - Rのcaretパッケージでratioを予測するモデルを作る。その2

UnsplashのLeonid Antsiferovが撮影した写真 www.crosshyou.info の続きです。引き続き、caretパッケージでratioを予測するモデルを作成していきます。 まずは、linear regression modelで、もう少し複雑なモデルにしてみます。 l_totalの2乗項と、l_total x…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析5 - Rのcaretパッケージでratioを予測するモデルを作る。その1

UnsplashのDiego PHが撮影した写真 www.crosshyou.info 前回は、l_totalを2016年度、2017年度、2018年度で回帰分析してみました。理論ベースでもbootstrapでのシミュレーションベースでも、年度によってl_totalの平均値には違いがあることが確認できました。…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析4 - inferパッケージでBootstrapでの回帰分析

UnsplashのNick Fewingsが撮影した写真 www.crosshyou.info の続きです。前回までのデータの分析で、年度によって、l_totalの値が違うっぽいことがわかりました。今回はこれが統計定期に有意な違いなのかどうかを調べてみます。 inferパッケージで、シミュレ…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析3 - geom_point()関数で散布図を描く。top_n()関数で上位/下位を抽出する。

UnsplashのZoe Schaefferが撮影した写真 www.crosshyou.info の続きです。前回はヒストグラムで一つの変数の分布をグラフにしてみました。 今回は、散布図で二つの変数の関係性をグラフにしてみます。 まずは、l_shotoku23とl_totalです。 l_shotoku23が大き…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析2 - データをヒストグラムにして分布を可視化する。

UnsplashのMarek Piwnickiが撮影した写真 www.crosshyou.info の続きです。前回はデータをRに読み込ませるところまでやりました。 そして、shotoku17: 平成17年基準の県民1人当たり所得のデータはすべてNAであることがわかりました。なので、shotoku17は削除…

都道府県別の建築物リフォーム・リニューアル調査のデータ分析1 - Rにデータを読み込ませる。

UnsplashのMarius Ciocirlanが撮影した写真 今回は、都道府県別の建築物リフォーム・リニューアル調査のデータを分析してみようと思います。 はじめに政府統計の総合窓口(e-Stat)からデータをCSVファイル形式でダウンロードします。 このようなCSVファイルで…

都道府県別の保護統計調査のデータ分析11 - Rのplmパッケージを使ってパネルデータ分析

UnsplashのKrzysztof Niewolnyが撮影した写真 www.crosshyou.info の続きです。 今回は、Rのplmパッケージを使って、パネルデータで回帰分析をしてみます。 まず、library()関数でplmパッケージを読み込みます。 前回作成した、df3のデータフレームをパネル…

都道府県別の保護統計調査のデータ分析10 - RでPooled Cross-Sectionsのデータ分析

UnsplashのYoksel Zokが撮影した写真 www.crosshyou.info の続きです。 今回からは、Rでパネルデータ分析をしてみます。 まず、パネルデータとして、1997年、2008年、2021年の3年間だけのデータフレームを作ってみます。 filter()関数で1997年、2008年、202…

都道府県別の保護統計調査のデータの分析9 - Rで時系列の回帰分析のSerial Correlationをテストする。

UnsplashのLeo SERRATが撮影した写真 www.crosshyou.info の続きです。 前回はRのdynlmパッケージを使い、時系列データの回帰分析をして、r_one: 1号観察割合をr_four: 4号観察の割合で回帰分析してみました。 今回は、時系列データの回帰分析で考慮しなけ…

都道府県別の保護統計調査のデータの分析8 - R言語のdynlmパッケージで時系列データの回帰分析

UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info 上のブログの続きです。 今回は、保護統計調査のデータを時系列データとして扱って、分析をしてみます。 これまでの回帰分析では、r_one: 1号観察の割合をr_four: 4号観察の割合で回帰分析してい…

東京証券取引所の市場区分再編時の区分選択にガバナンス要因が与える影響

今回の記事は、いつもとは違っています。ある学術誌に投稿したのですが、査読の結果、掲載不可になったものです。掲載不可なので、欠陥や問題点などが多くあるのかと思います。しかし、昨年の3月くらいから、コツコツと書いてきた論文なので、とりあえず、記…

都道府県別の保護統計調査のデータの分析7 - R言語で回帰分析モデルの不均一分散をチェックする。

UnsplashのMaitheli Maitraが撮影した写真 www.crosshyou.info の続きです。 前回は、回帰分析をしました。今回はその続きで、回帰分析したモデルの残差が均一分散かどうかをチェックします。 lmtestパッケージのbptest()関数で簡単にチェックできます。 bpt…

都道府県別の保護統計調査のデータ分析6 - R言語のlm()関数で回帰分析モデルを作成し、stagrgazer()関数でモデルを比較する。

UnsplashのGabriel Garcia Marengoが撮影した写真 www.crosshyou.info の続きです。 今回は回帰分析をしています。被説明変数は、r_one:1号観察の割合、説明変数は、r_two: 2号観察の割合と、r_four: 4号観察の割合にしてみます。 まず、2021年のデータだ…

都道府県別の保護統計調査のデータの分析5 - R言語のgeom_col()でバーグラフ、geom_line()でライングラフを描く。

UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info の続きです。 今回は2021年のデータを使い、前回作成した各保護観察処分の割合を見てみます。 まずは、1号観察の比率ランキングをみてみます。 那覇は6割、松江は2割ぐらいと、都道府県によって大…

都道府県別の保護統計調査のデータの分析4 - R言語のpivot_wider()でデータフレームをワイド型に変換して、散布図マトリックスを描く。

UnsplashのRoméo A.が撮影した写真 www.crosshyou.info の続きです。 今回は、データフレームを少し変形します。 このように、保護観察処分の1号、2号、3号、4号が一つの type の列におさまっているのを、 このように、1号は1号の列、2号は2号の列と…

都道府県別の保護統計調査のデータの分析3 - R言語のggplot()+geom_histogram()でヒストグラムを描く

UnsplashのEd Robertsonが撮影した写真 www.crosshyou.info の続きです。 前回と同様に、でも今度は2つの変数の組み合わせ別に基本統計量を算出します。 まずは、typeとlocationです。 typeとyearの基本統計量のデータセットを作ります。 三つ目は、location…

都道府県別の保護統計調査のデータの分析2 - Rのgroup_by(), summarize()などを使用して基本統計量をタイプ別、場所別、年別に算出する。

UnsplashのMarkus Spiskeが撮影した写真 www.crosshyou.info 上のブログ記事の続きです。 前回は、保護観察統計のデータをRに読み込ませるところまでやりました。 今回は、もう少し分析っぽいことをやりましょう。 まず、データの見た目を整えます。 typeの…

都道府県別の保護統計調査のデータの分析1 - Rでcsvファイルのデータを読み込み、tidyなデータフレームに修正する。

UnsplashのVishu Jooが撮影した写真 今回は、都道府県別の保護統計調査のデータを分析してみようと思います。 政府統計の総合窓口、e-statのウェブサイトからデータ取得します。 観察所別 開始人員累年比較 というデータをダウンロードしてみます。 このよう…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析6 - R言語でクラシフィケーション、パラメータをチューニングしてさらに正解率を高める。

UnsplashのJonatan Pieが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のcaretパッケージで、generalized liner model regressionとk-nearest neighborsの2つの方法でクラシフィケーションをしました。 k-nnはチューニングのパラメータがありま…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析5 - R言語のcaretパッケージで簡単クラシフィケーション

Unsplashのmicheile dot comが撮影した写真 www.crosshyou.info の続きです。今回はR言語でクラシフィケーション分析をしてみようと思います。 まず、caretパッケージの読み込みをします。 2019年と2020年のデータをトレーニング用のデータ、2021年のデータ…