Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2025-07-01から1ヶ月間の記事一覧

読書記録 - 「セカンド・チャンス シェイクスピアとフロイトに学ぶ「やり直しの人生」」スティーブン・グリーンブラット、アダム・フィリップス 著 (岩波新書)

セカンド・チャンス シェイクスピアとフロイトに学ぶ「やり直しの人生」 (岩波新書) 作者:スティーブン グリーンブラット,アダム フィリップス 岩波書店 Amazon 難しい本でした。訳者のあとがきを読んで、ようやくなんとなくわかった気がします。 セカンド・…

2010年から2024年のプロ野球の成績データの分析 5 - 盗塁のほうがヒットよりも勝率が上がる。

www.crosshyou.info の続きです。前回は勝率を他の変数で説明する線形モデルを推定しました。あれから一晩たって、よく考えたら、打率と安打数などを一緒にするのは、よくないのでは?と思いました。安打数などを変えずに打率を上げる、下げるのは現実的でな…

2010年から2024年のプロ野球の成績のデータ分析 4 - 線形回帰分析で勝率と関係のある変数を確認する。

www.crosshyou.info 今回は、勝率と関係のある変数を線形回帰分析で確認してみます。 lm() 関数で線形モデルを推定します。 基点となら線形モデルということで、lm_base という名前で保存します。 summary()関数で結果をみてみます。 p値が0.05以下の変数は…

2010年から2024年のプロ野球の成績のデータ分析 3 - 勝率と打率、防御率、盗塁数の関係を視覚化

www.crosshyou.info 前回は各種変数を1試合当たりの数値に直しました。今回はいくつかの変数を視覚化してみます。まずは、一番大事なwin_rate: 勝率の分布をヒストグラムにしてみてみましょう。 0.5を中心にした山型の分布ですね。 次は、win_rate: 勝率とba…

2010年から2024年のプロ野球の成績のデータ分析 2 - 安打数などを1試合当たりの値に修正する。

www.crosshyou.info の続きです。前回は CSV ファイルのデータを R に取り込みました。今回は分析用のデータフレームを作りたいと思います。 まず、私の大目標は、勝率に関連する変数は何か、例えば、打率と防御率ではどっちが重要か、ホームラン数と二塁打…

2010年から2024年のプロ野球の成績のデータ分析 1 - CSV ファイルのデータを R に取り込む

今回からしばらくは、プロ野球の勝敗のデータを分析してみたいと思います。 日本野球機構のウェブサイトに、 https://npb.jp/bis/yearly/centralleague_2024.html こんな感じで毎年の各球団の成績表がありましたので、これをCSVファイルに2010年から2024年ま…

読書記録 - 「凄い進化 - 「一見すると不合理」の謎を解く」 鈴木 紀之 著 (中公新書)

すごい進化 - 「一見すると不合理」の謎を解く (中公新書) 作者:鈴木紀之 中央公論新社 Amazon 昆虫の不思議な生態を中心に、「一見すると不合理」な生態が進化の自然淘汰というレンズを通して見ると、合理的なんだ、という事例が何件も紹介されていてとても…

賃金構造基本調査のデータ分析 10 - tidymodelsのyardstickパッケージでモデル評価

www.crosshyou.info の続きです。前回までで、lmエンジン、glmnetエンジン、kknnエンジン、rangerエンジンでsaralyを予測してきました。最後にこれらのモデルの評価をしましょう。 まずは、実際の saralyと各モデルの予測値を一つのデータフレームにまとめま…

賃金構造基本調査のデータ分析 9 - tidymodelsの ranger エンジンでランダムフォレストモデルによる回帰分析。

www.crosshyou.info の続きです。今回はランダムフォレストモデルで予測してみます。ranger エンジンを使用しました。 ranger パッケージを読み込みます。 モデルを定義します。rand_forest() でエンジンは ranger です。 レシピを定義します。 ワークフロー…

賃金構造基本調査のデータ分析 8 - tidymodelsのkknnエンジンでk-NN法による回帰分析。線形モデルよりも良い結果に。

www.crosshyou.info の続きです。前回は線形モデルでglmnetのエンジンでsaralyを推測しました。結果はlmエンジンでの推測よりも少し悪い結果でした。線形モデルでの予測は難しそうなので、別のモデルでやってみようと思います。 k-NN法を使ってみます。 まず…

賃金構造基本調査のデータ分析 7 - tidymodelsのglmnetエンジンでのハイパーパラメータの最適化

www.crosshyou.info の続きです。前回は線形モデルをlmエンジンで推計しました。今回はglmnetエンジンでやってみます。 copilot先生に「tidymodels で linear_reg()でset_engine("glmnet")で最適なパラメータを見つける方法」と質問した回答を基にしてやって…