Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2026-03-01から1ヶ月間の記事一覧

都道府県別の定期健康診断結果報告のデータの分析1 - CSV ファイルのデータを R に取り込む

今回からしばらくは、都道府県別の定期健康診断結果報告のデータの分析をしてみます。データは、政府統計の総合窓口、e-stat から取得しました。 ダウンロードした CSV ファイルは下のようなものです。 12行目に変数名を挿入しました。 R でデータを分析しま…

読書記録 - 「読む技法 詩から法律まで、理論的に正しく理解する」 伊藤 氏貴 著 (中公新書)

読む技法 詩から法律まで、論理的に正しく理解する (中公新書) 作者:伊藤氏貴 中央公論新社 Amazon 2025年11月25日が初版で、私が手にしたのは2026年1月20日の3版でした。短い間に版を重ねているので、売れている本だと思います。そのとおりで、読んでいてと…

UCI Machine Learning Repository の Spambase のデータの分析3 - Random Forest で分類

www.crosshyou.info の続きです。今回はランダムフォレストで分類してみます。 今回も tidymodels のワークフローでやります。 recipe() 関数でレシピを作成します。 ランダムフォレストのモデルは、rand_forest() 関数で作ります。 レシピとモデルを統合し…

UCI Machine Learning Repository の Spambase のデータの分析2 - Elastic-Net Logistic Regression で分類する。

www.crosshyou.info の続きです。前回は首尾よくデータのテキストファイルを R に読み込ませることができました。今回からは、いろいろなモデルで分類していきます。いちばんはじめはロジスティック回帰です。L1 + L2 の正則化の Elastic-Net Logistic Regre…

UCI Machie Learning Repository の Spambase のデータの分析1 - テキストファイルのデータを R に読み込む。

今回からしばらくは、UCI Machine Learning RepositoryにあるSpambaseのデータセットで分類の練習をしてみたいと思います。 Hopkins, M., Reeber, E., Forman, G., & Suermondt, J. (1999). Spambase [Dataset]. UCI Machine Learning Repository.https://do…

読書記録 - 「英検1級 文で覚える単熟語 4訂版 (音声DL付)」 旺文社

英検1級 文で覚える単熟語 4訂版(音声DL付) 英検文で覚える単熟語 旺文社 Amazon 目指せ英検1級!と意気込んで買ってはみたものの、そうそうに英検合格はあきらめ、純粋に文章を読んで楽しむ本となりました。なので、この本が英検1級にどれだけ役に立つか…

日銀が保有する国債残高のデータの分析6 - Rで機械学習 - 3人寄れば文殊の知恵 - Elastic-Net, k-NN, ランダムフォレストの三つの多数決で正解率が向上

www.crosshyou.info の続きです。今回はランダムフォレストで分類してみます。 レシピを作成して、rand_forest()でエンジンをrangerにしてランダムフォレストモデルを作ります。 ワークフロー作成、クロスバリデーションの設定、チューングリッドの作成をし…

日銀が保有する国債残高のデータの分析5 - Rで機械学習 - tidymodelsでkknnエンジンで分類 - 正解率は92%

www.crosshyou.info の続きです。前回は glmnet で elastic-lasso でtypeを分類してみました。今回は kknn でk-NN で分類してみます。今回も tidymodels パッケージのワークフローで分類しますので、おおまかな流れは同じです。 まず、レシピ を作成します。…

日銀が保有する国債残高のデータの分析4 - Rで機械学習 - tidymodelsでglmnetエンジンでtypeの分類 - 92%の正解率

www.crosshyou.info の続きです。前回はRでt検定とANOVAをやりました。今回は機械学習でtype: 5年債とか10年債とかを分類してみましょう。 その前に、一応の確認として、seriesとtypeの関係をグラフで見ておきます。 seriesの分布をヒストグラムにします。 s…

日銀が保有する国債残高のデータの分析3 - Rでt検定とANOVA - 年の違いは無い、種類別の違いはある。

www.crosshyou.info の続きです。前回は日銀の保有する国債の残高についてグラフでどのようなデータかを確認しました。その結果、国債1つ1つの保有残高の平均値は2025年3月10日と2026年3月10日で大きな変化は無いこと、国債の種類別の平均値は大きな違いがあ…

日銀が保有する国債残高のデータの分析2 - EDA (Exploratory Data Analysis) の実践

www.crosshyou.info の続きです。前回はデータをRに取り込むところまでやりました。今回はデータの様子を確認しましょう。 amt: 残高(単位1億円)のヒストグラムをみてみましょう。 分布の山が2つある感じですね。 date別に箱ひげ図を作って、2025年と2026年…

日銀が保有する国債残高のデータの分析1 - データをRに取り込む

今回からしばらくは日本銀行が保有する国債残高のデータをつかって分析してみたいと思います。 日銀のホームページからエクセルファイルがダウンロードできます。 https://www.boj.or.jp/whatsnew/index.htm 下の図のようなエクセルファイルでした。 2026年3…

読書記録 - 「労働組合とは何か」 木下 武男 著 (岩波新書)

労働組合とは何か (岩波新書) 作者:木下 武男 岩波書店 Amazon 2021年3月19日に発行された本です。 労働組合は本来ならば、貧しい虐げられた労働者たちが身を守り、生きるために闘う武器のはずですが、日本ではそうはなっていません。これは、日本の労働組合…

全国の主要な市の刑法犯認知件数のデータの分析6 - 産業従事者比率と刑法犯認知件数の回帰分析

www.crosshyou.info の続きです。今回は、第1次産業、第2次産業、第3次産業に従事している人口比率、one, two, threeを変数に加えて回帰分析をしてみます。 はじめに、都市別のone, two, threeの平均値のデータフレームを作成します。 このデータフレームを…