Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2026-01-01から1年間の記事一覧

IEA Gender and Energy Employment Data Analysis 1 - Load CSV file into R.

(IEA, Gender and Energy, IEA, Paris https://www.iea.org/data-and-statistics/data-product/gender-and-energy, Licence: CC BY 4.0) In this post, I am going to analyze/paly around with IEA Gender and Energy Employment data. I downloaded CSV fi…

ラグビー リーグワン のデータの分析6 - 2024-2025シーズンのデータでモデルを評価する。

www.crosshyou.info の続きです。前回は、説明変数を全部使ったモデル、具体的には rank:選手の個人成績の順位、point:得点、game:出場試合数、try:トライ数、goal:ゴール数、n:個人成績上位50位に入った選手の数を説明変数に取り入れたモデルと、シンプルな…

読書記録 - 「イノベーション 普及する条件」 天野 友道 著 (岩波新書)

イノベーション 普及する条件 (岩波新書) 作者:天野 友道 岩波書店 Amazon 筆者はハーバード・ビジネス・スクールの先生で、本書の内容もアメリカでの研究を紹介するようなものです。 「イノベーションの普及」ということがテーマですが、はじめイノベーショ…

ラグビー リーグワン のデータの分析5 - LOOCVでどちらのモデルが良いかを判断する。

www.crosshyou.info の続きです。前回データフレームを作り直して、個々の選手の成績をチームごとに平均値にして、このデータフレームからチームの順位を予測するモデルを作成しました。 一つは全ての説明変数を使用したモデル、もう一つは有意な説明変数だ…

ラグビー リーグワン のデータの分析4 - データフレームを作り直す。

www.crosshyou.info の続きです。前回は、GAM(Generalized Additive Model)で予測モデルを作成しました。あまり良いモデルではありませんでした。そもそもとして、個人の成績からチームの予測をするモデルは難しそうです。最下位のチームに一番活躍した選手…

読書記録 - 「地域と人口減少の経済学 スマート・シュリンクという選択肢」 小峰 隆夫 著 (中公新書)

地域と人口減少の経済学 スマート・シュリンクという選択肢 (中公新書) 作者:小峰隆夫 中央公論新社 Amazon 2026年5月に発行された新刊です。著者の小峰隆夫さんは経済企画庁や国土庁などで地域振興政策に取り組まれていたというこです。 本書でいいたいこと…

読書記録 - 「社会の価値の測り方: 「見える化」で地域を豊かにする」 枝廣 淳子 著 (岩波新書)

社会の価値の測り方: 「見える化」で地域を豊かにする (岩波新書) 作者:枝廣 淳子 岩波書店 Amazon 2026年1月20日発行です。星の王子様のセリフに「ほんとうに大切なものは目に見えない」という言葉がありますが、その目に見えない大切なものをいろいろ工夫…

ラグビー リーグワン のデータの分析3 - GAM(Generalized Additive Model)での予測

www.crosshyou.info の続きです。前回の線形モデルではあまり良い予測はできなかったので、今回はGAM(Generalized Additive Model)を試してみます。 まず、mgcvパッケージの読み込みをします。 学習します。 tryやpgは有意な変数ですね。 予測値と実際の値の…

ラグビー リーグワン のデータの分析2 - 線形モデルでの予測

www.crosshyou.info の続きです。前回はCSVファイルのデータをRに読み込ませるところまでやりました。 今回は試しに線形モデルを作ってみます。 モデル全体のp-valueは0.1022となりました。個々の変数の係数を見ると、p-valueが0.05以下のものはありません。…

読書記録 - 「世界秩序 グローバル化の夢と挫折」 田所 昌幸 著 (中公新書)

世界秩序 グローバル化の夢と挫折 (中公新書) 作者:田所昌幸 中央公論新社 Amazon 2025年9月25日が初版で、私が手にしたのは2026年1月25日再販のものでしたので、結構売れていると思います。 1999年にアメリカの有名ジャーナリスト、トーマス・フリードマン…

ラグビー リーグワン のデータの分析 1 - R にデータを読み込ませる。

今回からしばらくは、ラグビー リーグワン のデータを分析してみたいと思います。 具体的には、 ( https://sports.yahoo.co.jp/rugby/leagueone/div1/stats/ )この個人の成績から、 ( https://sports.yahoo.co.jp/rugby/leagueone/div1/standings/ )のチーム…

UCI Machine Learning Repository の Obesity データの分析10 - Random Forest モデルで予測。正解率は、94/0%

www.crosshyou.info の続きです。今回はランダムフォレストモデルで予測してみます。 まず、モデルを作成します。 ワークフローを作成します。 チューニンググリッドを作成します。 トレーニング用のデータでチューニングします。 最適なパラメータを確認し…

読書記録 - 「整形外科 生活の質を支える」 田中 栄 編 (岩波新書)

整形外科 生活の質を支える (岩波新書) 岩波書店 Amazon 2026年4月17日に発行されたばかりです。 編者の田中栄先生は、東京大学大学院医学系研究科外科学専攻整形外科学の先生です。 田中先生の他、10人以上の整形外科の先生が整形外科のいろいろな分野につ…

UCI Machine Learning Repository の Obesity データの分析9 - 決定木モデルで予測。正解率は 94.2%

www.crosshyou.info 今回は決定木モデルで予測します。decision_tree() 関数で、エンジンは rpart を使います。モデルを作成します。 ワークフローを作ります。 チューニンググリッドを作成します。 チューニングを実行します。 最適なパラメータを取り出し…

UCI Machine Learning Repository の Obesity データの分析8 - Quadratic Discriminant Analysis で分類。正解率は 56.4%

www.crosshyou.info の続きです。今回は、Quadratic Discriminant Analysis で分類してみたいと思います。 モデルを作成します。discrim_quad() でエンジンは MASS です。 次はワークフローの作成です。 トレーニング用のデータで学習します。 あれれ、エラ…

読書記録 - 「名水と日本人 起源から百名水まで文化と科学でひもとく」 鈴木 康久, 河野 忠 著 (中公新書)

名水と日本人 起源から百名水まで、文化と科学でひもとく (中公新書) 作者:鈴木康久,河野忠 中央公論新社 Amazon 本書の「はじめに」に「多くの人々が集う場でもある名水。その魅力を問い直すことは水と日本人の関係を知ることにつながる。暮らしが求め、時…

UCI Machine Learning Repository の Obesity データの分析7 - multinomial logistic regression での予測。正解率は 90.1%

www.crosshyou.info 今回は、glmnet エンジンで multinomial logistic regression でやってみます。 モデルを作成します。multinom_reg() 関数です。 ワークフローを作成します。 チューニングのグリッドを作成します。 チューニングを実行します。 最良のパ…

UCI Machine Learning Repository の Obesity データの分析6 - Naive Bayes による分類。正解率は 48.2%

www.crosshyou.info 前回は k-NN で予測しました。今回は Naive Bayes で予測してみます。 はじめに discrim パッケージを読み込んでおきます。 モデルを作成します。 ワークフローを作成します。レシピは前回の k-NN で作成したレシピをそのまま使います。 …

UCI Machine Learning Repository の Obesity データの分析5 - k-NNによる分類。正解率は 87.6%

www.crosshyou.info の続きです。今回からはいよいよ実際の分類をしていきます。今回は、k-NN で分類してみます。 tidymodelsパッケージのワークフローに沿って実行します。 まず、tidymodelsパッケージを読み込んでおきます。 次は、トレーニング用のデータ…

読書記録 - 「輝石の空 <破壊された地球> 三部作」 N. K. ジェミシン 著 (創元SF文庫)

輝石の空 〈破壊された地球〉三部作 (創元SF文庫) 作者:N・K・ジェミシン 東京創元社 Amazon <破壊された地球>三部作の第3作目です。 エッスンとその娘、ナッスンの話が交互に語られ、母子は地球の反対側のコアポイントに向かいます。母と娘の葛藤が軸かと…

UCI Machine Learning Repository の Obesity データの分析4 - 探索的データ分析: EDA (Exploratory Data Analysis) の実践その3

www.crosshyou.info の続きです、前々回、前回に続き、探索的データ分析: EDA (Exploratory Data Analysis) をしていきます。 obesity と CH2O です。How much water do you drink daily? という質問なので、水を一日にどれくらい飲むか? です。 normal wei…

UCI Machine Learning Repository の Obesity データの分析3 - 探索的データ分析: EDA (Exploratory Data Analysis) の実践その2

www.crosshyou.info の続きです。 今回も前回に続き、探索的データ分析 (Exploratory Data Analysis) をします。 obesity と FHWO(Family History With Overweight) です。家族に肥満の人がいるかどうかです。 obesity の人、overweight の人はほとんど家族…

UCI Machine Learning Repository の Obesity データの分析2 - 探索的データ分析: EDA (Exploratory Data Analysis) の実践その1

www.crosshyou.info の続きです。今回は 探索的データ分析: EDA (Exploratory Data Analysis) という作業をしていきます。このデータの目的は、obesity の7つのカテゴリーを予測する、ということですから、obesity と他の変数の関係性を調べようと思います。…

UCI Machine Learning Repository の Obesity データの分析1 - CSVファイルのデータをRに読み込ませる。

今回からしばらくは、UCI Machine Learning Repository の Obesity(肥満)のデータを使ってみたいと思います。 Estimation of Obesity Levels Based On Eating Habits and Physical Condition [Dataset]. (2019). UCI Machine Learning Repository. https://d…

都道府県別の定期健康診断結果報告のデータの分析7 - 勾配ブースティングモデルでの回帰分析

www.crosshyou.info の続きです。今回は勾配ブースティングモデルで所見率を回帰分析してみます。 xgboost パッケージを読み込みます。 説明変数(per_jushin, log_place, log_jushin)を行列に変換します。 shokenritsu を被説明変数として取り出します。 XGB…

読書記録 - 「オベリスクの門 <破壊された地球> 三部作」 N. K. ジェミシン 著 (創元SF文庫)

オベリスクの門 〈破壊された地球〉三部作 (創元SF文庫) 作者:N・K・ジェミシン 東京創元社 Amazon <破壊された地球>三部作の第2作目です。 前作は、エッスン、アマダ、サイアナイトの三人の話が交互に語られるという話でしたが、今作はエッスンとその娘の…

都道府県別の定期健康診断結果報告のデータの分析6 - 決定木モデルでの回帰分析

www.crosshyou.info の続きです。前回は lm() 関数を使って、線形モデルで重回帰分析をしました。R-squared は 0.22 ということで残念ながら線形モデルでは、所見率は上手く説明できないようでした。そこで今回は決定木モデルを使ってみます。 はじめに rpar…

都道府県別の定期健康診断結果報告のデータの分析5 - 所見率を被説明変数にして重回帰分析をする。

www.crosshyou.info の続きです。今回は、shokenritsu: 所見率を被説明変数にして重回帰分析をしてみたいと思います。 まずはじめに、per_jushin: 1事業所当たりの受診者数の数、log_place: 事業所の数の対数変換値、log_jushin: 受信者数の対数変換値を説明…

読書記録 - 「第五の季節 <破壊された地球> 三部作」N. K. ジェミシン 著 (創元SF文庫)

第五の季節 〈破壊された地球〉三部作 (創元SF文庫) 作者:N・K・ジェミシン 東京創元社 Amazon <破壊された地球>三部作の第1作目です。 この三部作で3年連続してヒューゴー賞を受賞したということで、期待をもって読み始めました。読み終わった感想は、…

都道府県別の定期健康診断結果報告のデータの分析4 - 地理的な位置関係との関連を分析

www.crosshyou.info の続きです。前回は、2017年と2015年の所見率に違いがある、1事業所当たりの受診者数に違いがある、所見率の差と1事業所当たりの受診者数の差には関連はなさそう、ということがわかりました。 今回は、所見率の増減や、1事業所当たりの受…