Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2026-02-01から1ヶ月間の記事一覧

全国の主要な市の刑法犯認知件数のデータの分析5 - 人口密度を加えて回帰分析

www.crosshyou.info の続きです。に続いて、今回は人口密度と刑法犯認知件数の関係をみてみます。 人口密度のデータフレームを作成するところからはじめます。 このdf_mitsudoに前回作成したdf_popを合体させます。 summary()関数でデータフレームのサマリー…

全国の主要な市の刑法犯認知件数のデータの分析4 - 刑法犯認知件数を人口で回帰分析してみる。

www.crosshyou.info の続きです。今回はcrime: 刑法犯認知件数と人口の関係をみてみます。 まず、人口だけのデータフレームを作ります。 このデータフレームに前回作ったcrimeだけのデータフレームを合体させます。inner_join()関数を使います。yearとcodeを…

読書記録 - 「諸葛亮 上」と「諸葛亮 下」 宮城谷 昌光 著

諸葛亮 <上> (日本経済新聞出版) 作者:宮城谷昌光 日経BP Amazon 諸葛亮 <下> (日本経済新聞出版) 作者:宮城谷昌光 日経BP Amazon 日経新聞に連載されていたときにも毎日読んでいいました。今回が2回目の読書です。 宮城谷先生の「諸葛亮」は、正史に近…

全国の主要な市の刑法犯認知件数のデータの分析3 - どの市が、どの都道府県が刑法犯認知件数が多いのか?

www.crosshyou.info の続きです。 今回はどの都市が刑法犯認知件数が多いか、どの都道府県が多いかを確認します。 まずは単純にcrimeの大きい順に並び替えてみます。 東京都千代田区が一番多いことがわかります。千代田区は住んでる人と比べて、働いている人…

全国の主要な市の刑法犯認知件数のデータの分析2 - 刑法犯認知件数の経年変化のグラフとANOVA

www.crosshyou.info の続きです。前回はデータをウェブサイトからダウンロードして、それをRに読み込ませ、データがどんなだか少し確認しました。今回は刑法犯認知件数の経年変化をみてみます。 分析用に、year, code, city, crimeだけのあるデータフレーム…

全国の主要な市の刑法犯認知件数のデータの分析1 - ウェブサイトからデータをダウンロードして、Rにデータを読み込む

今回からしばらくは、全国の主要な市の刑法犯認知件数のデータを分析してみたいと思います。政府統計の総合窓口(e-stat)からデータをダウンロードします。 このように、東京の23区と県庁所在市、政令指定都市、中核市を選択します。109の区と市を23区を選択…

読書記録 - 「入門 公共政策学 社会問題を解決する「新しい知」」 秋吉 貴雄 著

入門 公共政策学 社会問題を解決する「新しい知」 (中公新書) 作者:秋吉貴雄 中央公論新社 Amazon 個人や1企業では解決できない社会問題を解決することが公共政策です。この公共政策を学問として研究するのは公共政策学ということです。 本の帯には、『日本…

UCI Machine Learning Repository の Chess (King-Rook vs. King-Pawn) のデータの分析3 - ランダムフォレストによる分類。素晴らしい性能

www.crosshyou.info の続きです。前回はglmnetパッケージを使い、Elastic-Netで分類してみました。ROCのAUCが0.996と非常に素晴らしい値でした。正直、Elastic-Netでここまで高精度の分類器が作れたので、もういいかな、と思いましたが、今回は、tidymodels…

UCI Machine Learning Repository の Chess (King-Rook vs. King-Pawn) のデータの分析2 - glmnetのElastic-Netで分類してみる。ROCのAUCが0.996と高性能でした。

www.crosshyou.info の続きです。前回はデータをRに読み込ませて前処理をしました。 今回は実際に分類器を作ります。glmnetパッケージでElastic-Netでやってみようと思います。 glmnetパッケージを読み込みます。 glmnetは特徴量はマトリックス型、targetは…

UCI Machine Learning Repository の Chess (King-Rook vs. King-Pawn) のデータの分析1 - データの読み込みと前処理

今回からしばらくは、UCI Machine Learning Repository の Chess () のデータを使って分類問題を練習してみたいと思います。 Chess (King-Rook vs. King-Pawn) - UCI Machine Learning Repository Shapiro, A. (1983). Chess (King-Rook vs. King-Pawn) [Dat…

都道府県別の商業動態統計調査のデータの分析9 - Elastic-Net(ペナルティ付き線形モデル)をパワーアップ

www.crosshyou.info の続きです。前回は線形モデル、ペナルティ付き線形モデル、決定木モデル、ランダムフォレストモデル、サポートベクター回帰(SVR)モデル、k-NN回帰モデル、ニューラルネットワークモデルの7つのモデルの性能評価をしました。その結果、ラ…

読書記録 - 「楽毅 (二)」 宮城谷 昌光 著 (新潮文庫)

楽毅(二)(新潮文庫) 作者:宮城谷 昌光 新潮社 Amazon 楽毅は軍を率いても、自分一人での戦闘でも、行政でも超一級品の能力ですが、それでも使える君主、中山王が愚かなために中山国は滅んでいきます。この話は現代の日本の企業でも社長がダメなために、…

都道府県別の商業動態統計調査のデータの分析8 - 7つのモデルの予測結果比較

www.crosshyou.info の続きです。前回は、tune_grid()関数でハイパーパラメータのチューニングをしました。 今回はチューニング結果を見るところからはじめます。collect_metrics()関数を使います。 線形モデル(lm)をみてみます。 rmseは2.30です。R-squared…

都道府県別の商業動態統計調査のデータの分析7 - tidymodelによるチューニング - 勾配ブースティング回帰モデルは向いてなかった

www.crosshyou.info の続きです。前回はチューニング・グリッドを作成しましたから、今回は tune_grid()関数で実際にチューニングをしていきます。 線形モデルは、fit_resample()関数を使います。 futureパッケージとtuneパッケージを読み込み、plan()関数で…

都道府県別の商業動態統計調査のデータの分析6 - tidymodelsによるクロスバリデーションでのパラメータのチューニング・グリッドの生成

www.crosshyou.info の続きです。前回までで8つのモデルのワークフローを作成しました。今回はパラメータのチューニングをします。 まず、クロスバリデーションのデータを生成します。 grid_regular()関数でチューニング・グリッドを生成していきます。 線形…

読書記録 - 「刑法入門」 山口 厚 著 (岩波新書)

刑法入門 (岩波新書) 作者:山口 厚 岩波書店 Amazon 2008年6月に発行された本です。はしがきには「本書を最後まで読まれれば、そのときには、犯罪に対する新たな視野が開かれることと思います。」と書いてありました。私の理解が浅いためか、くっきりとした…

都道府県別の商業動態統計調査のデータの分析5 - tidymodelsによるレシピとワークフローの作成

www.crosshyou.info の続きです。前回は8つのモデルを作成しました。今回はレシピとワークフローを作成しましょう。さくさく行きます。 まずは、線形モデルからです。 今回のデータは特に異常な外れ値や分布の偏りはないので、前処理は必要ないでしょう。 次…

都道府県別の商業動態統計調査のデータの分析4 - tidymodelsによるモデル作成

www.crosshyou.info の続きです。前回は、百貨店・スーパーの販売額の前年比の平均値が年度によって違うことがわかりました。今回からはtidymodelsで機械学習をしてみようと思います。予測する変数は、百貨店・スーパーの販売額の前年比です。これをその他の…