データ分析
UnsplashのTom Podmoreが撮影した写真 www.crosshyou.info の続きです。 今回は2021年のデータを使い、前回作成した各保護観察処分の割合を見てみます。 まずは、1号観察の比率ランキングをみてみます。 那覇は6割、松江は2割ぐらいと、都道府県によって大…
UnsplashのRoméo A.が撮影した写真 www.crosshyou.info の続きです。 今回は、データフレームを少し変形します。 このように、保護観察処分の1号、2号、3号、4号が一つの type の列におさまっているのを、 このように、1号は1号の列、2号は2号の列と…
UnsplashのEd Robertsonが撮影した写真 www.crosshyou.info の続きです。 前回と同様に、でも今度は2つの変数の組み合わせ別に基本統計量を算出します。 まずは、typeとlocationです。 typeとyearの基本統計量のデータセットを作ります。 三つ目は、location…
UnsplashのMarkus Spiskeが撮影した写真 www.crosshyou.info 上のブログ記事の続きです。 前回は、保護観察統計のデータをRに読み込ませるところまでやりました。 今回は、もう少し分析っぽいことをやりましょう。 まず、データの見た目を整えます。 typeの…
UnsplashのVishu Jooが撮影した写真 今回は、都道府県別の保護統計調査のデータを分析してみようと思います。 政府統計の総合窓口、e-statのウェブサイトからデータ取得します。 観察所別 開始人員累年比較 というデータをダウンロードしてみます。 このよう…
UnsplashのJonatan Pieが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のcaretパッケージで、generalized liner model regressionとk-nearest neighborsの2つの方法でクラシフィケーションをしました。 k-nnはチューニングのパラメータがありま…
Unsplashのmicheile dot comが撮影した写真 www.crosshyou.info の続きです。今回はR言語でクラシフィケーション分析をしてみようと思います。 まず、caretパッケージの読み込みをします。 2019年と2020年のデータをトレーニング用のデータ、2021年のデータ…
UnsplashのSimon Bergerが撮影した写真 www.crosshyou.info の続きです。 今回は、R言語のinferパッケージを使って、opm(営業利益率)の平均値の信頼区間を算出してみます。 まずは、group_by()とsummarize()とmean()を使って、製造業のopm、卸売小売業のopm…
UnsplashのPete Wongが撮影した写真 www.crosshyou.info の続きです。前回はデータをグラフにしてみました。 今回は都道府県別のランキングを見てみましょう。 まずは、製造業のrevenueランキングです。filter()関数で製造業にしてから、arrange()関数とdesc…
UnsplashのAlex Basovが撮影した写真 www.crosshyou.info の続きです。 今回はデータをグラフにして、どんなデータなのかを把握してみたいと思います。 はじめに変数がどんなデータがあるかを確認したいと思います。 summary()関数で一覧してみます。 year_c…
UnsplashのSingle.Earthが撮影した写真 今回は都道府県別の個人企業経済調査のデータの分析をしてみたいと思います。 (振り返ってみると、2021年3月にもこのデータを分析していましたが、自分の中ではすっかり忘れていました。) 政府統計の総合窓口、www.e-s…
UnsplashのZoltan Tasiが撮影した写真 www.crosshyou.info の続きです。 前回はR言語のplmパッケージを使ってパネルデータフレームを作成し、model = "pooling" にして普通のクロスセクションで回帰分析をしました 今回は、First Differenced Estimator, Fix…
UnsplashのAndrey Andreyevが撮影した写真 www.crosshyou.info の続きです。 今回は、R言語でパネルデータの分析をします。 Using R for Introductory Econometrics 作者:Heiss, Florian Independently Published Amazon こちらの本を参考にしてやってみます…
UnsplashのGwen Weustinkが撮影した写真 www.crosshyou.info の続きです。 前回はwear_shoeを被説明変数、wariaiを説明変数にして単回帰分析をしました。 今回はもう一つ説明変数を加えてみます。カテゴリーデータを加えてみましょう。 まず、カテゴリーデー…
UnsplashのBoris Smokrovicが撮影した写真 www.crosshyou.info の続きです。 今回はR言語で回帰分析をしてみます。 被説明変数は、wear_shoe: 被服及び履物費です。回帰分析をはじめる前にwear_shoeとその他の説明変数の候補との相関関係を確認しておきまし…
UnsplashのPierre Van Crombruggheが撮影した写真 www.crosshyou.info の続きです。 今回は、Chapter 2 Data Visualization | Statistical Inference via Data Science (moderndive.com) を参考にしてR言語のggplot2パッケージを使っていくつかグラフを描き…
UnsplashのNico Knaackが撮影した写真 今回は、都道府県別の被服及び履物費のデータを分析してみようと思います。 データは、政府統計の総合窓口(www.e-stat.go.jp)から取得しました。 被服及び履物費を被説明変数として、人口密度や15~64歳人口割合、1人当…
UnsplashのWesley Tingeyが撮影した写真 今回は、J. Leagueのデータを分析してみます。勝ち点と得点、失点の関係を調べます。 まず、データをJ. Leagueの公式サイトから取得しました。 J. League Data Site (j-league.or.jp) Webスクレイピングできればいい…
UnsplashのClement Souchetが撮影した写真 www.crosshyou.info の続きです。 前回はANOVA分析をしてみました。今回は回帰分析をしてみようと思います。 pc_val: 一人当たりの売上高を被説明変数にして回帰分析をしてみます。 まず、p_male304050: 30代40代50…
UnsplashのAlex Personが撮影した写真 www.crosshyou.info の続きです。 前回行ったクラスタリングの結果をデータフレーム、dfにくっつけます。 まず、dfがどんなものだったか、str()関数で確認します。 これにクラスタリングの結果をくっつけたいので、まず…
UnsplashのSebastian Unrauが撮影した写真 www.crosshyou.info 前回はデータフレームを大きい順、小さい順に並び替えました。東京都や大阪府などが値が大きくて、奈良県などが値が小さかったです。 そこで今回は、R言語でクラスタリングを実行してみたいと思…
UnsplashのBoris Smokrovicが撮影した写真 www.crosshyou.info の続きです。 前回は都道府県ごとの統計値のデータフレーム、(stat_prefと名前をつけた)、を作成しました。今回はこのデータフレームを並び替えてどういう都道府県が値が大きいのかを調べてみま…
UnsplashのMarek Piwnickiが撮影した写真 www.crosshyou.info の続きです。 前回はCSVファイルにあるデータをR言語に読み込ませ、分析用のデータフレームを作成するところまで進みました。 まず、hist()関数でvalue: 売上高(百万円単位)の分布をみてみましょ…
UnsplashのAaron Burdenが撮影した写真 今回は都道府県別の経済構造実態調査のデータを分析してみようと思います。 まず、政府統計の総合窓口(e-stat.go.jp)からデータをダウンロードします。 経済構造実態調査は、我が国の製造業及びサービス産業における企…
UnsplashのWexor Tmgが撮影した写真 www.crosshyou.info の続きです。前回はR言語で階層クラスタリングをしました。今回は非階層クラスタリングをしてみて、前回の結果を比較してみます。 k-means法というクラスタリング手法で、kmeans()関数で実行可能です…
UnsplashのSora Saganoが撮影した写真 www.crosshyou.info 前回までは回帰分析をしていましたが、 今回はR言語でクラスタリングをしてみようと思います。 まず、クラスタリング用のデータフレームとして、aggregate()関数とmean()関数を使って3年間の平均の…
UnsplashのLeopold Stengerが撮影した写真 www.crosshyou.info 前回は年と都道府県も説明変数に加えてtworatioを重回帰分析してみました。その結果、l_num: 健康診断を実施した事業場数の対数変換値はtworatioを説明する有意な変数ではないことがわかりまし…
UnsplashのGanapathy Kumarが撮影した写真 www.crosshyou.info の続きです。 前回の重回帰モデルに年と都道府県を説明変数に加えて、l_numの係数がどうなるかを見てみます。 まず、yearをas.factor()関数でファクター型に変換した変数をつくります。 yfがフ…
UnsplashのYoksel Zokが撮影した写真 www.crosshyou.info の続きです。 前回は tworatio: 2回以上実施した事業場数の割合をnum: 検査を実施した事業所の数で回帰分析してみました。その結果、事業所の数が大きいほど、割合は低下している傾向があることがわ…
UnsplashのCristina Anne Costelloが撮影した写真 www.crosshyou.info 今回は、上のブログの続きです。 前回は、散布図や箱ひげ図を描きました。今回は、barplot()関数を使って棒グラフを描いてみます。 まずは、ritsu: 所見のあった人数の割合を都道府県ご…