データ分析
UnsplashのRap Dela Reaが撮影した写真 www.crosshyou.info の続きです。 今回は、Rで階層的クラスタリング分析をしてみます。 まず、クラスタリング分析をするためのデータフレームを用意します。 setaiの種類を総数だけにして、l_shoyu, l_noshoyu, l_hoka…
UnsplashのAlfons Moralesが撮影した写真 www.crosshyou.info の続きです。前回は2つの変数どうしの相関係数を調べて、信頼区間をcor.test()関数とブートストラップ法で算出しました。 今回は、回帰分析をしてみようと思います。 回帰分析の非説明変数は、l…
Unsplashの2H Mediaが撮影した写真 www.crosshyou.info の続きです。 前回は、各変数の上位と下位の都道府県を見てみました。 今回は2つの変数間の相関係数について見てみます。 まず。データフレームを世帯の種類が「総数」だけにします。世帯の種類には注…
UnsplashのWolfgang Hasselmannが撮影した写真 www.crosshyou.info の続きです。 今回は、各変数のランキングを見てみようと思います。 まずは、totalのランキングです。setaiの種類を「総数」だけに絞ってランキングします。 東京都、大阪府、神奈川県、愛…
UnsplashのShana Van Roosbroekが撮影した写真 www.crosshyou.info の続きです。 前回はそれぞれの変数の分布を見るために、ヒストグラムを作成しました。 今回は2つの変数の関係性を見るために、散布図を描いてみます。 まず、l_totalとshotokuをみてみま…
UnsplashのGuillaume Chabrolが撮影した写真 www.crosshyou.info の続きです。 前回はデータのCSVファイルをRにインポートしました。 まず、skimrパッケージのskim()関数で各変数の基本統計量を一覧します。 282行、10列のデータフレームで、文字列型の変数…
UnsplashのJasmin Maagが撮影した写真 今回は、都道府県別の世帯土地統計のデータを分析してみようと思います。 政府統計の総合窓口(www.e-stat.go.jp)からデータを取得します。 たくさんデータセットがありましたが、今回は一番上の「世帯人員、土地の所有…
UnsplashのYouSsef NaDramが撮影した写真 www.crosshyou.info の続きです。前回は、l_total: リフォーム・リニューアルの金額の自然対数値を被説明変数、l_shotoku23: 県民1人当たり所得の自然対数値、l_total_prev: 前年のl_total、yearを説明変数にして回…
UnsplashのArham Jainが撮影した写真 www.crosshyou.info の続きです。前回は、l_total: 建築物リフォーム・リニューアルの金額の自然対数値をl_shotoku23: 県民1人当たり所得とyear: 調査年度の2つの説明変数で回帰分析してみました。 今回は、前年度のl_to…
UnsplashのRedd Fが撮影した写真 www.crosshyou.info の続きです。 今回は、l_total: リフォーム・リニューアルの金額の対数変換値値をl_shotoku23: 平成23年基準の県民1人当たり所得の対数変換値で回帰分析してみます。1人当たり所得の所得が大きいほど、リ…
UnsplashのLeonid Antsiferovが撮影した写真 www.crosshyou.info の続きです。引き続き、caretパッケージでratioを予測するモデルを作成していきます。 まずは、linear regression modelで、もう少し複雑なモデルにしてみます。 l_totalの2乗項と、l_total x…
UnsplashのDiego PHが撮影した写真 www.crosshyou.info 前回は、l_totalを2016年度、2017年度、2018年度で回帰分析してみました。理論ベースでもbootstrapでのシミュレーションベースでも、年度によってl_totalの平均値には違いがあることが確認できました。…
UnsplashのNick Fewingsが撮影した写真 www.crosshyou.info の続きです。前回までのデータの分析で、年度によって、l_totalの値が違うっぽいことがわかりました。今回はこれが統計定期に有意な違いなのかどうかを調べてみます。 inferパッケージで、シミュレ…
UnsplashのZoe Schaefferが撮影した写真 www.crosshyou.info の続きです。前回はヒストグラムで一つの変数の分布をグラフにしてみました。 今回は、散布図で二つの変数の関係性をグラフにしてみます。 まずは、l_shotoku23とl_totalです。 l_shotoku23が大き…
UnsplashのMarek Piwnickiが撮影した写真 www.crosshyou.info の続きです。前回はデータをRに読み込ませるところまでやりました。 そして、shotoku17: 平成17年基準の県民1人当たり所得のデータはすべてNAであることがわかりました。なので、shotoku17は削除…
UnsplashのMarius Ciocirlanが撮影した写真 今回は、都道府県別の建築物リフォーム・リニューアル調査のデータを分析してみようと思います。 はじめに政府統計の総合窓口(e-Stat)からデータをCSVファイル形式でダウンロードします。 このようなCSVファイルで…
UnsplashのKrzysztof Niewolnyが撮影した写真 www.crosshyou.info の続きです。 今回は、Rのplmパッケージを使って、パネルデータで回帰分析をしてみます。 まず、library()関数でplmパッケージを読み込みます。 前回作成した、df3のデータフレームをパネル…
UnsplashのYoksel Zokが撮影した写真 www.crosshyou.info の続きです。 今回からは、Rでパネルデータ分析をしてみます。 まず、パネルデータとして、1997年、2008年、2021年の3年間だけのデータフレームを作ってみます。 filter()関数で1997年、2008年、202…
UnsplashのLeo SERRATが撮影した写真 www.crosshyou.info の続きです。 前回はRのdynlmパッケージを使い、時系列データの回帰分析をして、r_one: 1号観察割合をr_four: 4号観察の割合で回帰分析してみました。 今回は、時系列データの回帰分析で考慮しなけ…
UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info 上のブログの続きです。 今回は、保護統計調査のデータを時系列データとして扱って、分析をしてみます。 これまでの回帰分析では、r_one: 1号観察の割合をr_four: 4号観察の割合で回帰分析してい…
今回の記事は、いつもとは違っています。ある学術誌に投稿したのですが、査読の結果、掲載不可になったものです。掲載不可なので、欠陥や問題点などが多くあるのかと思います。しかし、昨年の3月くらいから、コツコツと書いてきた論文なので、とりあえず、記…
UnsplashのMaitheli Maitraが撮影した写真 www.crosshyou.info の続きです。 前回は、回帰分析をしました。今回はその続きで、回帰分析したモデルの残差が均一分散かどうかをチェックします。 lmtestパッケージのbptest()関数で簡単にチェックできます。 bpt…
UnsplashのGabriel Garcia Marengoが撮影した写真 www.crosshyou.info の続きです。 今回は回帰分析をしています。被説明変数は、r_one:1号観察の割合、説明変数は、r_two: 2号観察の割合と、r_four: 4号観察の割合にしてみます。 まず、2021年のデータだ…
UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info の続きです。 今回は2021年のデータを使い、前回作成した各保護観察処分の割合を見てみます。 まずは、1号観察の比率ランキングをみてみます。 那覇は6割、松江は2割ぐらいと、都道府県によって大…
UnsplashのRoméo A.が撮影した写真 www.crosshyou.info の続きです。 今回は、データフレームを少し変形します。 このように、保護観察処分の1号、2号、3号、4号が一つの type の列におさまっているのを、 このように、1号は1号の列、2号は2号の列と…
UnsplashのEd Robertsonが撮影した写真 www.crosshyou.info の続きです。 前回と同様に、でも今度は2つの変数の組み合わせ別に基本統計量を算出します。 まずは、typeとlocationです。 typeとyearの基本統計量のデータセットを作ります。 三つ目は、location…
UnsplashのMarkus Spiskeが撮影した写真 www.crosshyou.info 上のブログ記事の続きです。 前回は、保護観察統計のデータをRに読み込ませるところまでやりました。 今回は、もう少し分析っぽいことをやりましょう。 まず、データの見た目を整えます。 typeの…
UnsplashのVishu Jooが撮影した写真 今回は、都道府県別の保護統計調査のデータを分析してみようと思います。 政府統計の総合窓口、e-statのウェブサイトからデータ取得します。 観察所別 開始人員累年比較 というデータをダウンロードしてみます。 このよう…
UnsplashのJonatan Pieが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のcaretパッケージで、generalized liner model regressionとk-nearest neighborsの2つの方法でクラシフィケーションをしました。 k-nnはチューニングのパラメータがありま…
Unsplashのmicheile dot comが撮影した写真 www.crosshyou.info の続きです。今回はR言語でクラシフィケーション分析をしてみようと思います。 まず、caretパッケージの読み込みをします。 2019年と2020年のデータをトレーニング用のデータ、2021年のデータ…