データ分析
UnsplashのLeonid Antsiferovが撮影した写真 www.crosshyou.info の続きです。引き続き、caretパッケージでratioを予測するモデルを作成していきます。 まずは、linear regression modelで、もう少し複雑なモデルにしてみます。 l_totalの2乗項と、l_total x…
UnsplashのDiego PHが撮影した写真 www.crosshyou.info 前回は、l_totalを2016年度、2017年度、2018年度で回帰分析してみました。理論ベースでもbootstrapでのシミュレーションベースでも、年度によってl_totalの平均値には違いがあることが確認できました。…
UnsplashのNick Fewingsが撮影した写真 www.crosshyou.info の続きです。前回までのデータの分析で、年度によって、l_totalの値が違うっぽいことがわかりました。今回はこれが統計定期に有意な違いなのかどうかを調べてみます。 inferパッケージで、シミュレ…
UnsplashのZoe Schaefferが撮影した写真 www.crosshyou.info の続きです。前回はヒストグラムで一つの変数の分布をグラフにしてみました。 今回は、散布図で二つの変数の関係性をグラフにしてみます。 まずは、l_shotoku23とl_totalです。 l_shotoku23が大き…
UnsplashのMarek Piwnickiが撮影した写真 www.crosshyou.info の続きです。前回はデータをRに読み込ませるところまでやりました。 そして、shotoku17: 平成17年基準の県民1人当たり所得のデータはすべてNAであることがわかりました。なので、shotoku17は削除…
UnsplashのMarius Ciocirlanが撮影した写真 今回は、都道府県別の建築物リフォーム・リニューアル調査のデータを分析してみようと思います。 はじめに政府統計の総合窓口(e-Stat)からデータをCSVファイル形式でダウンロードします。 このようなCSVファイルで…
UnsplashのKrzysztof Niewolnyが撮影した写真 www.crosshyou.info の続きです。 今回は、Rのplmパッケージを使って、パネルデータで回帰分析をしてみます。 まず、library()関数でplmパッケージを読み込みます。 前回作成した、df3のデータフレームをパネル…
UnsplashのYoksel Zokが撮影した写真 www.crosshyou.info の続きです。 今回からは、Rでパネルデータ分析をしてみます。 まず、パネルデータとして、1997年、2008年、2021年の3年間だけのデータフレームを作ってみます。 filter()関数で1997年、2008年、202…
UnsplashのLeo SERRATが撮影した写真 www.crosshyou.info の続きです。 前回はRのdynlmパッケージを使い、時系列データの回帰分析をして、r_one: 1号観察割合をr_four: 4号観察の割合で回帰分析してみました。 今回は、時系列データの回帰分析で考慮しなけ…
UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info 上のブログの続きです。 今回は、保護統計調査のデータを時系列データとして扱って、分析をしてみます。 これまでの回帰分析では、r_one: 1号観察の割合をr_four: 4号観察の割合で回帰分析してい…
今回の記事は、いつもとは違っています。ある学術誌に投稿したのですが、査読の結果、掲載不可になったものです。掲載不可なので、欠陥や問題点などが多くあるのかと思います。しかし、昨年の3月くらいから、コツコツと書いてきた論文なので、とりあえず、記…
UnsplashのMaitheli Maitraが撮影した写真 www.crosshyou.info の続きです。 前回は、回帰分析をしました。今回はその続きで、回帰分析したモデルの残差が均一分散かどうかをチェックします。 lmtestパッケージのbptest()関数で簡単にチェックできます。 bpt…
UnsplashのGabriel Garcia Marengoが撮影した写真 www.crosshyou.info の続きです。 今回は回帰分析をしています。被説明変数は、r_one:1号観察の割合、説明変数は、r_two: 2号観察の割合と、r_four: 4号観察の割合にしてみます。 まず、2021年のデータだ…
UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info の続きです。 今回は2021年のデータを使い、前回作成した各保護観察処分の割合を見てみます。 まずは、1号観察の比率ランキングをみてみます。 那覇は6割、松江は2割ぐらいと、都道府県によって大…
UnsplashのRoméo A.が撮影した写真 www.crosshyou.info の続きです。 今回は、データフレームを少し変形します。 このように、保護観察処分の1号、2号、3号、4号が一つの type の列におさまっているのを、 このように、1号は1号の列、2号は2号の列と…
UnsplashのEd Robertsonが撮影した写真 www.crosshyou.info の続きです。 前回と同様に、でも今度は2つの変数の組み合わせ別に基本統計量を算出します。 まずは、typeとlocationです。 typeとyearの基本統計量のデータセットを作ります。 三つ目は、location…
UnsplashのMarkus Spiskeが撮影した写真 www.crosshyou.info 上のブログ記事の続きです。 前回は、保護観察統計のデータをRに読み込ませるところまでやりました。 今回は、もう少し分析っぽいことをやりましょう。 まず、データの見た目を整えます。 typeの…
UnsplashのVishu Jooが撮影した写真 今回は、都道府県別の保護統計調査のデータを分析してみようと思います。 政府統計の総合窓口、e-statのウェブサイトからデータ取得します。 観察所別 開始人員累年比較 というデータをダウンロードしてみます。 このよう…
UnsplashのJonatan Pieが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のcaretパッケージで、generalized liner model regressionとk-nearest neighborsの2つの方法でクラシフィケーションをしました。 k-nnはチューニングのパラメータがありま…
Unsplashのmicheile dot comが撮影した写真 www.crosshyou.info の続きです。今回はR言語でクラシフィケーション分析をしてみようと思います。 まず、caretパッケージの読み込みをします。 2019年と2020年のデータをトレーニング用のデータ、2021年のデータ…
UnsplashのSimon Bergerが撮影した写真 www.crosshyou.info の続きです。 今回は、R言語のinferパッケージを使って、opm(営業利益率)の平均値の信頼区間を算出してみます。 まずは、group_by()とsummarize()とmean()を使って、製造業のopm、卸売小売業のopm…
UnsplashのPete Wongが撮影した写真 www.crosshyou.info の続きです。前回はデータをグラフにしてみました。 今回は都道府県別のランキングを見てみましょう。 まずは、製造業のrevenueランキングです。filter()関数で製造業にしてから、arrange()関数とdesc…
UnsplashのAlex Basovが撮影した写真 www.crosshyou.info の続きです。 今回はデータをグラフにして、どんなデータなのかを把握してみたいと思います。 はじめに変数がどんなデータがあるかを確認したいと思います。 summary()関数で一覧してみます。 year_c…
UnsplashのSingle.Earthが撮影した写真 今回は都道府県別の個人企業経済調査のデータの分析をしてみたいと思います。 (振り返ってみると、2021年3月にもこのデータを分析していましたが、自分の中ではすっかり忘れていました。) 政府統計の総合窓口、www.e-s…
UnsplashのZoltan Tasiが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のplmパッケージを使ってパネルデータフレームを作成し、model = "pooling" にして普通のクロスセクションで回帰分析をしました 今回は、First Differenced Estimator, Fix…
UnsplashのAndrey Andreyevが撮影した写真 www.crosshyou.info の続きです。 今回は、R言語でパネルデータの分析をします。 Using R for Introductory Econometrics 作者:Heiss, Florian Independently Published Amazon こちらの本を参考にしてやってみます…
UnsplashのGwen Weustinkが撮影した写真 www.crosshyou.info の続きです。 前回はwear_shoeを被説明変数、wariaiを説明変数にして単回帰分析をしました。 今回はもう一つ説明変数を加えてみます。カテゴリーデータを加えてみましょう。 まず、カテゴリーデー…
UnsplashのBoris Smokrovicが撮影した写真 www.crosshyou.info の続きです。 今回はR言語で回帰分析をしてみます。 被説明変数は、wear_shoe: 被服及び履物費です。回帰分析をはじめる前にwear_shoeとその他の説明変数の候補との相関関係を確認しておきまし…
UnsplashのPierre Van Crombruggheが撮影した写真 www.crosshyou.info の続きです。 今回は、Chapter 2 Data Visualization | Statistical Inference via Data Science (moderndive.com) を参考にしてR言語のggplot2パッケージを使っていくつかグラフを描き…
UnsplashのNico Knaackが撮影した写真 今回は、都道府県別の被服及び履物費のデータを分析してみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 被服及び履物費を被説明変数として、人口密度や15~64歳人口割合、1人当…