crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

データ分析

都道府県別の保護統計調査のデータ分析5 - R言語のgeom_col()でバーグラフ、geom_line()でライングラフを描く。

UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info の続きです。 今回は2021年のデータを使い、前回作成した各保護観察処分の割合を見てみます。 まずは、1号観察の比率ランキングをみてみます。 那覇は6割、松江は2割ぐらいと、都道府県によって大…

都道府県別の保護統計調査のデータの分析4 - R言語のpivot_wider()でデータフレームをワイド型に変換して、散布図マトリックスを描く。

UnsplashのRoméo A.が撮影した写真 www.crosshyou.info の続きです。 今回は、データフレームを少し変形します。 このように、保護観察処分の1号、2号、3号、4号が一つの type の列におさまっているのを、 このように、1号は1号の列、2号は2号の列と…

都道府県別の保護統計調査のデータの分析3 - R言語のggplot()+geom_histogram()でヒストグラムを描く

UnsplashのEd Robertsonが撮影した写真 www.crosshyou.info の続きです。 前回と同様に、でも今度は2つの変数の組み合わせ別に基本統計量を算出します。 まずは、typeとlocationです。 typeとyearの基本統計量のデータセットを作ります。 三つ目は、location…

都道府県別の保護統計調査のデータの分析2 - Rのgroup_by(), summarize()などを使用して基本統計量をタイプ別、場所別、年別に算出する。

UnsplashのMarkus Spiskeが撮影した写真 www.crosshyou.info 上のブログ記事の続きです。 前回は、保護観察統計のデータをRに読み込ませるところまでやりました。 今回は、もう少し分析っぽいことをやりましょう。 まず、データの見た目を整えます。 typeの…

都道府県別の保護統計調査のデータの分析1 - Rでcsvファイルのデータを読み込み、tidyなデータフレームに修正する。

UnsplashのVishu Jooが撮影した写真 今回は、都道府県別の保護統計調査のデータを分析してみようと思います。 政府統計の総合窓口、e-statのウェブサイトからデータ取得します。 観察所別 開始人員累年比較 というデータをダウンロードしてみます。 このよう…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析6 - R言語でクラシフィケーション、パラメータをチューニングしてさらに正解率を高める。

UnsplashのJonatan Pieが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のcaretパッケージで、generalized liner model regressionとk-nearest neighborsの2つの方法でクラシフィケーションをしました。 k-nnはチューニングのパラメータがありま…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析5 - R言語のcaretパッケージで簡単クラシフィケーション

Unsplashのmicheile dot comが撮影した写真 www.crosshyou.info の続きです。今回はR言語でクラシフィケーション分析をしてみようと思います。 まず、caretパッケージの読み込みをします。 2019年と2020年のデータをトレーニング用のデータ、2021年のデータ…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析4 - R言語のinferパッケージを使い、平均値の信頼区間を視覚化する。

UnsplashのSimon Bergerが撮影した写真 www.crosshyou.info の続きです。 今回は、R言語のinferパッケージを使って、opm(営業利益率)の平均値の信頼区間を算出してみます。 まずは、group_by()とsummarize()とmean()を使って、製造業のopm、卸売小売業のopm…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析3 - R言語のarrange()関数で都道府県別ランキング

UnsplashのPete Wongが撮影した写真 www.crosshyou.info の続きです。前回はデータをグラフにしてみました。 今回は都道府県別のランキングを見てみましょう。 まずは、製造業のrevenueランキングです。filter()関数で製造業にしてから、arrange()関数とdesc…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析2 - R言語のggplot2パッケージで5種類のよく使うグラフを描く

UnsplashのAlex Basovが撮影した写真 www.crosshyou.info の続きです。 今回はデータをグラフにして、どんなデータなのかを把握してみたいと思います。 はじめに変数がどんなデータがあるかを確認したいと思います。 summary()関数で一覧してみます。 year_c…

都道府県別の個人企業経済調査(製造業と卸売業、小売業)のデータ分析1 - R言語にデータを取り込む

UnsplashのSingle.Earthが撮影した写真 今回は都道府県別の個人企業経済調査のデータの分析をしてみたいと思います。 (振り返ってみると、2021年3月にもこのデータを分析していましたが、自分の中ではすっかり忘れていました。) 政府統計の総合窓口、www.e-s…

都道府県別の被服及び履物費のデータの分析6 - R言語のplmパッケージでパネルデータ分析。First Difference, Fixed Effect, Random Effect Estimator.

UnsplashのZoltan Tasiが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のplmパッケージを使ってパネルデータフレームを作成し、model = "pooling" にして普通のクロスセクションで回帰分析をしました 今回は、First Differenced Estimator, Fix…

都道府県別の被服及び履物費のデータの分析5 - R言語でパネルデータ分析。plmパッケージのplm()関数を使う

UnsplashのAndrey Andreyevが撮影した写真 www.crosshyou.info の続きです。 今回は、R言語でパネルデータの分析をします。 Using R for Introductory Econometrics 作者:Heiss, Florian Independently Published Amazon こちらの本を参考にしてやってみます…

都道府県別の被服及び履物費のデータの分析4 - R言語で回帰分析。カテゴリーデータを説明変数に加える。重回帰分析。

UnsplashのGwen Weustinkが撮影した写真 www.crosshyou.info の続きです。 前回はwear_shoeを被説明変数、wariaiを説明変数にして単回帰分析をしました。 今回はもう一つ説明変数を加えてみます。カテゴリーデータを加えてみましょう。 まず、カテゴリーデー…

都道府県別の被服及び履物費のデータの分析3 - R言語で回帰分析。まずは単回帰分析。15~64歳の人口割合を説明変数にする。

UnsplashのBoris Smokrovicが撮影した写真 www.crosshyou.info の続きです。 今回はR言語で回帰分析をしてみます。 被説明変数は、wear_shoe: 被服及び履物費です。回帰分析をはじめる前にwear_shoeとその他の説明変数の候補との相関関係を確認しておきまし…

都道府県別の被服及び履物費のデータの分析2 - R言語でグラフを描く。The Five Named Graphs でデータを視覚化する。

UnsplashのPierre Van Crombruggheが撮影した写真 www.crosshyou.info の続きです。 今回は、Chapter 2 Data Visualization | Statistical Inference via Data Science (moderndive.com) を参考にしてR言語のggplot2パッケージを使っていくつかグラフを描き…

都道府県別の被服及び履物費のデータの分析1 - R言語にCSVファイルのデータを読み込む。

UnsplashのNico Knaackが撮影した写真 今回は、都道府県別の被服及び履物費のデータを分析してみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 被服及び履物費を被説明変数として、人口密度や15~64歳人口割合、1人当…

J. Leagueのデータの分析 - R言語で「攻撃は最大の防御なり」か「防御は最大の攻撃なり」かを調べる。

UnsplashのWesley Tingeyが撮影した写真 今回は、J. Leagueのデータを分析してみます。勝ち点と得点、失点の関係を調べます。 まず、データをJ. Leagueの公式サイトから取得しました。 J. League Data Site (j-league.or.jp) Webスクレイピングできればいい…

都道府県別の経済構造実態調査のデータの分析6 - R言語のlm()関数で回帰分析をして、ggplot() + geom_point() + geom_abline()で散布図に回帰直線を重ねる

UnsplashのClement Souchetが撮影した写真 www.crosshyou.info の続きです。 前回はANOVA分析をしてみました。今回は回帰分析をしてみようと思います。 pc_val: 一人当たりの売上高を被説明変数にして回帰分析をしてみます。 まず、p_male304050: 30代40代50…

都道府県別の経済構造実態調査のデータの分析5 - R言語のaov()関数でANOVA分析

UnsplashのAlex Personが撮影した写真 www.crosshyou.info の続きです。 前回行ったクラスタリングの結果をデータフレーム、dfにくっつけます。 まず、dfがどんなものだったか、str()関数で確認します。 これにクラスタリングの結果をくっつけたいので、まず…

都道府県別の経済構造実態調査のデータの分析4 - R言語でhierarchial clusteringとk-means clusteringを実行する。

UnsplashのSebastian Unrauが撮影した写真 www.crosshyou.info 前回はデータフレームを大きい順、小さい順に並び替えました。東京都や大阪府などが値が大きくて、奈良県などが値が小さかったです。 そこで今回は、R言語でクラスタリングを実行してみたいと思…

都道府県別の経済構造実態調査のデータの分析3 - R言語でデータフレームを大きい順・小さい順に並び替える。

UnsplashのBoris Smokrovicが撮影した写真 www.crosshyou.info の続きです。 前回は都道府県ごとの統計値のデータフレーム、(stat_prefと名前をつけた)、を作成しました。今回はこのデータフレームを並び替えてどういう都道府県が値が大きいのかを調べてみま…

都道府県別の経済構造実態調査のデータの分析2 - R言語の tapply() 関数で産業別、都道府県別の統計値を算出する。

UnsplashのMarek Piwnickiが撮影した写真 www.crosshyou.info の続きです。 前回はCSVファイルにあるデータをR言語に読み込ませ、分析用のデータフレームを作成するところまで進みました。 まず、hist()関数でvalue: 売上高(百万円単位)の分布をみてみましょ…

都道府県別の経済構造実態調査のデータの分析1 - R言語にCSVファイルのデータを読み込む。

UnsplashのAaron Burdenが撮影した写真 今回は都道府県別の経済構造実態調査のデータを分析してみようと思います。 まず、政府統計の総合窓口(e-stat.go.jp)からデータをダウンロードします。 経済構造実態調査は、我が国の製造業及びサービス産業における企…

都道府県別の定期健康診断結果報告のデータ分析9 - R言語で非階層クラスタリング

UnsplashのWexor Tmgが撮影した写真 www.crosshyou.info の続きです。前回はR言語で階層クラスタリングをしました。今回は非階層クラスタリングをしてみて、前回の結果を比較してみます。 k-means法というクラスタリング手法で、kmeans()関数で実行可能です…

都道府県別の定期健康診断結果報告のデータ分析8 - R言語で階層クラスタリング

UnsplashのSora Saganoが撮影した写真 www.crosshyou.info 前回までは回帰分析をしていましたが、 今回はR言語でクラスタリングをしてみようと思います。 まず、クラスタリング用のデータフレームとして、aggregate()関数とmean()関数を使って3年間の平均の…

都道府県別の定期健康診断結果報告のデータ分析7 - R言語でパネルデータを回帰分析する。

UnsplashのLeopold Stengerが撮影した写真 www.crosshyou.info 前回は年と都道府県も説明変数に加えてtworatioを重回帰分析してみました。その結果、l_num: 健康診断を実施した事業場数の対数変換値はtworatioを説明する有意な変数ではないことがわかりまし…

都道府県別の定期健康診断結果報告のデータ分析6 - R言語で回帰モデルの不均一分散に適応した標準誤差やF検定をする。

UnsplashのGanapathy Kumarが撮影した写真 www.crosshyou.info の続きです。 前回の重回帰モデルに年と都道府県を説明変数に加えて、l_numの係数がどうなるかを見てみます。 まず、yearをas.factor()関数でファクター型に変換した変数をつくります。 yfがフ…

都道府県別の定期健康診断結果報告のデータ分析5 - R言語で回帰モデルの均一分散を調べたり、複数の回帰モデルの表を作成する。

UnsplashのYoksel Zokが撮影した写真 www.crosshyou.info の続きです。 前回は tworatio: 2回以上実施した事業場数の割合をnum: 検査を実施した事業所の数で回帰分析してみました。その結果、事業所の数が大きいほど、割合は低下している傾向があることがわ…

都道府県別の定期健康診断結果報告のデータ分析4- R言語で棒グラフを描いたり、単純線形回帰分析をしたりする。

UnsplashのCristina Anne Costelloが撮影した写真 www.crosshyou.info 今回は、上のブログの続きです。 前回は、散布図や箱ひげ図を描きました。今回は、barplot()関数を使って棒グラフを描いてみます。 まずは、ritsu: 所見のあった人数の割合を都道府県ご…