Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2025-12-01から1ヶ月間の記事一覧

都道府県別の電子レンジ所有数量のデータの分析5 - Rで線形重回帰分析をする

www.crosshyou.info の続きです。今回は回帰分析をしてみます。 lm()関数でモデルを作ります。 このモデルは、 電子レンジ所有数量 = β0 + β1 x 年ダミー + β2 x 人口密度の対数 + β3 x コンビニエンスストアの数 + β4 x 単身世帯の割合 + β5 x 1人当たり県…

都道府県別の電子レンジ所有数量のデータの分析4 - Rで散布図を描く

www.crosshyou.info の続きです。前回は各変数同士の相関係数と分布のヒストグラムを描きました。 今回は、電子レンジ所有数と他の変数の散布図を描くことから始めてみます。 はじめは、l_mitsudo: 人口密度の対数との散布図です。 少し、右肩下がりの散布図…

都道府県別の電子レンジ所有数量のデータの分析3 - 各変数のヒストグラムと相関係数マトリックスを描く

www.crosshyou.info の続きです。前回の操作でデータフレームが整いました。今回から実際の分析に入ります。 まず、電子レンジの所有の多いところ、少ないところを確認しておきましょう。 2014年度で見てみると、茨城県が1105台で一番多いです。徳島県、福井…

都道府県別の電子レンジ所有数量のデータの分析2 - 分析の前段階、データフレームの整備

www.crosshyou.info の続きです。前回はCSVファイルのデータをRに読み込ませました。そうしたら、単身世帯の割合のデータが、電子レンジ所有数量のデータと調査年が重なっていないことが判明しました。今回はこの問題に対処しようと思います。 まず、単身世…

都道府県別の電子レンジ所有数量のデータの分析1 - RでCSVファイルからデータを読み込む。

今回からしばらくは、都道府県別の電子レンジ所有数量を分析してみようと思います。 いつものように、政府統計の総合窓口からデータを取得します。 説明変数に人口密度、県民所得、コンビニエンスストア数、単独世帯割合を選んでみました。 ダウンロードした…

読書記録 - 「ルポ トランプ王国2 ラストベルト再訪」 金成 隆一 著 (岩波新書)

ルポ トランプ王国2 ラストベルト再訪 (岩波新書) 作者:金成 隆一 岩波書店 Amazon トランプが2016年に大統領になって、その後のアメリカのルポルタージュです。前著のトランプ王国と同じく、ラストベルトの人たちへにインタビューに加えて、今回はバイブル…

UCI Machine Learning RepositoryのBlood Transfusion Service Centerのデータの分析6 - ランダムフォレストモデルでの予測 - 何故、成績がよくないか?

www.crosshyou.info の続きです。今回はランダムフォレストモデルで分析してみます。 まず、トレーニング用のデータフレームとテスト用のデータフレームを用意します。 モデルを設定します。rand_forest()でエンジンはrangerを使います。 レシピを設定します…

UCI Machine Learning RepositoryのBlood Transfusion Service Centerのデータの分析5 - 決定木モデル(rpart)で予測

www.crosshyou.info の続きです。前回、前々回と線形モデルで予測してみました。80%よりちょっと下の正解率でした。今回は線形モデルでなく、決定木モデルで予測してみます。 まず、トレーニング用のデータフレームとテスト用のデータフレームを用意します。…

UCI Machine Learning RepositoryのBlood Transfusion Service Senterのデータの分析4 - glmnetのエンジンでのモデル。

www.crosshyou.info の続きです。今回はglmnetエンジンでペナルティ付きのロジスティクス回帰モデルを試してみます。 まず、トレーニング用のデータフレームとテスト用のデータフレームを作ります。 glmnetエンジンでペナルティ付きのロジスティクス回帰モデ…

読書記録 - 「日本のバス問題 高度成長期の隆盛から経営破綻、再生の時代へ」 佐藤 信之 著 (中公新書)

日本のバス問題 高度成長期の隆盛から経営破綻、再生の時代へ (中公新書) 作者:佐藤信之 中央公論新社 Amazon 日本のバスの輸送人員数のピークは1970年ということです。今から50年以上も前にピークをつけたことになります。日本の人口のピークはもっと後です…

UCI Machine Learning RepositoryのBlood Transfusion Service Centerのデータの分析3 - ロジスティクスモデルでの予測

www.crosshyou.info の続きです。前回はDonated_Bloodと他の変数の関係を箱ひげ図で視覚化しました。今回はDonated_Bloodを予測するモデルを作ります。まずは、2値の分類問題では基本のロジスティクスモデルを試します。 前もって、tidymodelsパッケージの読…

UCI Machine Learning RepositoryのBlood Transfusion Service Centerのデータの分析2 - Donated_Bloodとの関連を可視化する。

www.crosshyou.info の続きです。前回はテキストファイルのデータをRに読み込みました。今回はデータをグラフなどにして、EDA(Exploratory Data Analysis: 探索的データ分析)をします。 このデータは、Donated_Bloodを正しく分類する、というのが目標になり…

UCI Machine Learning RepositoryのBlood Transfusion Service Centerのデータの分析1 - Rにテキストファイルのデータを取り込む

今回からしばらくは、UCI Machine Learning RepositoryにあるBlood Transfusion Service Centerのデータを使って、分類(Classification)をしてみようと思います。 Yeh, I. (2008). Blood Transfusion Service Center [Dataset]. UCI Machine Learning Reposi…

都道府県別の交際・付き合いの平均時間のデータの分析6 - Rのplmパッケージを使いパネルデータとして回帰分析をする。

www.crosshyou.info の続きです。前回まではクロスセクションのデータとみなして回帰分析をしました。前回の回帰分析では、人口密度が高いと、平均気温が高いと、日照時間が短いと交際・付き合いの平均時間が長い、という結果でした。 今回はパネルデータと…

都道府県別の交際・付き合いの平均時間のデータの分析5 - 気温と日照時間の影響を分析

www.crosshyou.info の続きです。前回、説明変数にtemp:平均気温とsun:日照時間を加えるのを忘れていましたので、この2つも加えてみます。 tempもsunもp値が0.05よりも小さく、統計学的に有意な変数ですね。tempの符号は正の符号なので、平均気温が上がると…

都道府県別の交際・付き合いの平均時間のデータの分析4 - 人口密度と一人当り県内総生産額が交際時間に与える影響を分析

www.crosshyou.info の続きです。前回の分析で男女の違いや調査年の違いによって交際・付き合いの平均時間は違うことが確認できました。 今回からはいよいよ人口密度や一人当り県内総生産額が交際・付き合いの平均時間に影響を与えているかをみていきましょ…

読書記録 - 「死者と霊性 - 近代を問い直す」 末木 文美士 編 (岩波新書)

死者と霊性 近代を問い直す (岩波新書) 岩波書店 Amazon 編者の末木文美士と中島隆博司、若松英輔、安藤礼二、中島岳志の対談と末木文美士以外の4人の論説からなる本です。 柳田国男とか折口信夫とか鈴木大拙とか大川周明とか西田幾多郎とかの話がいっぱい話…

都道府県別の交際・付き合いの平均時間のデータの分析3 - 男女差や調査年度によって違いがあるかをt検定とANOVAで確認する。

www.crosshyou.info 前回までの分析で、交際・付き合いの平均時間は男性よりも女性のほうが長いことや年度を経るにつれて時間が短くなっていることが観察されました。今回は統計学的に有意にそれらのことが言えるのか、それとも誤差の範囲なのかを確認したい…