全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析6 - 課税所得と昼夜人口比率の関係を多重回帰分析で明らかにする。

データ分析

www.crosshyou.info の続きです。今回は課税所得と昼夜人口比率の関係を調べてみます。前回、前々回は昼夜人口比率と人口密度、昼夜人口比率と商品販売額と1つの変数と1つの変数の関係でしたが、今回は、人口密度と商品販売額をコントロールした上で、課税所…

2025-10-18

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析5 - 昼夜人口比率と商品販売額の関係

データ分析

www.crosshyou.info 前回の続きです。前回は昼夜人口比率と人口密度の関係を調べてみました、その結果、昼間の人口のほうが多い都市のほうが人口密度が低いことがわかりました。今回は、昼夜人口比率と商品販売額の関係を調べてみましょう。前回は、dayとい…

2025-10-12

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析4 - 昼夜人口比率と人口密度の関係

データ分析

(冒頭の画像は、Bing Image Creator で生成しました。プロンプトは Close up photograph of yellow daisy flowers, flowering under the high blue sky, photo です。) www.crosshyou.info の続きです。今回は昼間の人口が多い都市と夜の人口が多い都市の違…

2025-10-11

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析3 - 各変数の上位都市と下位都市

データ分析

www.crosshyou.info の続きです。今回は各変数の上位都市、下位都市はどういう都市か確認します。 mitsudo: 人口密度から見ていきます。可住地面積1平方km当りの人数です。一番多いのは、豊島区で22781人で、一番少ないのは山口氏の792人です。次は昼夜人…

2025-10-05

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析2 - 各変数のヒストグラムをRで描く。

データ分析

www.crosshyou.info の続きです。今回は各変数のヒストグラムを描いて、どんな感じの分布なのかを確認します。まずは、人口密度からです。人口密度の低い都市が多い分布ですね。ここで、geom_histogram(color = "white", bins = 20)のところは何度も使う…

2025-10-04

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析1 - CSVファイルをRに読み込む。

データ分析

今回は東京23区や県庁所在市、政令都市、中核都市のデータを分析してみようと思います。政府統計の総合窓口(e-stat)からデータを取得します。このように都市を選択します。データは上の４つのデータをしてみました。人口密度、昼夜人口比率、商品販売額、…

2025-09-28

国民生活に関する世論調査のデータの分析３ - 現在の生活が「満足」の割合を inferパッケージのワークフローで検定する

データ分析

www.crosshyou.info の続きです。前回、前々回は去年と比べた生活の向上感をみました。今回は現在の生活の満足度をみてみます。令和7年の調査では満足は50.2%(2729人中)で、令和6年は52.0%(1831人中)でした。 1.8ポイントの低下です。果たしてこの1.8ポイン…

2025-09-27

国民生活に関する世論調査のデータの分析２ - 「向上した」の比率の検定。prop.test()関数とブートストラップ法での検定

データ分析

www.crosshyou.info の続きです。今回は、去年よりも今年のほうが「向上した」という比率だけに注目します。令和7年の「向上した」の比率は、5.3%で、令和6年の「向上した」の比率は、4.7%です。0.6パーセンテージ・ポイントの差がありますが、これは統計的…

2025-09-27

国民生活に関する世論調査のデータの分析１ - 去年と比べた生活の向上感について - カイ2乗検定で去年の結果と比較

データ分析

今回は、昨日(9月26日)発表された、内閣府が実施した「国民生活に関する世論調査」をみてみます。 https://survey.gov-online.go.jp/202509/r07/r07-life/gairyaku.pdf このPDFファイルが調査結果ですね。第1問は去年と比べた生活の向上感を質問しています…

2025-09-23

UCI Machine Learning RepositoryのLetter Recognitionのデータの分析3 - RのrangerでA, B, Cを分類する。

データ分析

www.crosshyou.info の続きです。前回はglmnetのfamily = "multinomial"のモデルでA, B, Cを分類しました。結果は、99.1%という正解率でした。今回は、rangerパッケージでランダムフォレストのモデルで同じデータで予測してみます。まずは、パッケージの…

2025-09-23

UCI Machine Learning RepositoryのLetter Recognitionのデータの分析2 - RのglmnetでA, B, Cを識別するモデル

データ分析

www.crosshyou.info の続きです。前回はUCIのLetter RecognitionのデータをRに取り込みました。これから、文字認識のモデルを作成していきます。とはいうものの、26文字全てを認識するモデルを作るのは私にはできないので、今回は、A, B, Cの3文字を識別す…

2025-09-21

UCI Machine Learning RepositoryのLetter Recognitionのデータの分析1 - Rにデータを取り込む。

データ分析

今回は、UCI Machine Learning RepositoryのLetter Recognition (Slate, D. (1991). Letter Recognition [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5ZP40.)のデータを分析してみようと思います。ダウンロードしたデータは、 …

2025-09-20

都道府県別の農家1戸当たりの米の年間供給量等のデータの分析4 - Rのprcomp()関数で主成分分析(PCA: Principal Component Analysis)

データ分析

www.crosshyou.info の続きです。前回はlm()関数で重回帰分析をしました。今回は、PCA(Principal Component Analysis), 主成分分析をしてみたいと思います。 prcomp()関数を使います。 prefは都道府県名なので除外しています。siryoとkakoはNAがあるので除…

2025-09-15

都道府県別の農家1戸当たりの米の年間供給量等のデータの分析3 - lm()関数で重回帰分析

データ分析

www.crosshyou.info の続きです。前回は、dtotal: 総需要量を stotal: 総供給量という一つの説明変数で単回帰分析しました。今回はその他の説明変数を加えて、重回帰分析をしてみようと思います。てはじめにfzaiko: 期初の在庫量と lzaiko: 期末の在庫量を…

2025-09-14

都道府県別の農家1戸当たりの米の年間供給量等のデータの分析2 - lm()関数で単回帰分析

データ分析

www.crosshyou.info の続きです。前回はエクセルに保存してあるデータをRに読み込みました。今回は読み込んだデータをみていきます。まず、summary()関数で各変数の統計値を確認します。あれ！？siryoとkakoが数値データでなくて、文字列データとして処理…

2025-09-13

都道府県別の農家1戸当たりの米の年間供給量等のデータ分析1 - Rでエクセルからデータを読み込む

データ分析

今回は、政府統計の総合窓口(www.e-stat.go.jp)から生産者の米穀在庫等調査のデータを分析してみます。 www.e-stat.go.jp 「本調査は毎月、農家の米穀の在庫等を調査し、～～～」ってありますが、e-statにあるのは2019-01-08に公開した統計だけです。このよ…

2025-08-24

都道府県別の病院報告のデータの分析 6 - infer パッケージのワークフローでt検定

データ分析

www.crosshyou.info の続きです。前回は、t.test()関数で令和5年の精神科病院の在院患者数の比率と令和3年の比率を比較して、統計的に有意な差は認められないことを確認しました。今回は、inferパッケージのワークフローを適用して、コンピューターシミュレ…

2025-08-23

都道府県別の病院報告のデータの分析 5 - 精神科病院の在院患者数の比率 - 令和3年と令和5年の比較

データ分析

www.crosshyou.info の続きです。今回は令和3年と令和5年の精神科病院の患者数の比率を比較して、比率が増えているのか、減っているのかをみてみましょう。令和3年の精神科病院の患者数の比率を確認します。在院患者数の比率は0.193が平均値です。令和5…

2025-08-17

都道府県別の病院報告のデータの分析 4 - 各データの地理的な傾向を調べる。

データ分析

www.crosshyou.info の続きです。今回は、各データが地理的な傾向があるかどうかを見てみたいと思います。まず、したの図のようなCSVファイルをCopilotに相談して作りました。これを読み込みます。これを基のデータフレーム、dfと結合します。これで準備…

2025-08-16

都道府県別の病院報告のデータの分析 3 - 精神科病院の患者数の比率の分析

データ分析

www.crosshyou.info の続きです。今回はseishin: 精神科病院の患者数がどのくらいの比率を占めるかに注目してみます。まず、seishin / total を計算して比率を計算します。それでは、どこの都道府県が比率が高いか低いかを確認します。まず、在院患者数の…

2025-08-11

都道府県別の病院報告のデータの分析 2 - 在院患者数の多い都道府県、少ない都道府県はどこか？

データ分析

www.crosshyou.info の続きです。どこの都道府県が患者数が多いか・少ないかをみてみます。まずは、在院患者数の多いところをみてみます。高知県、鹿児島県、長崎県が上位3件です。高知県の令和3年度は、人口10万人当たりの在院患者数が1866人でした。少…

2025-08-10

都道府県別の病院報告のデータの分析 1 - Rにデータを取り込む

データ分析

今回からしばらくは、都道府県別の病院報告のデータの分析をしたいと思います。政府統計の総合窓口、e-statのウェブサイトからデータを取得します。令和5年の人口10万人対1日平均患者数のデータと令和3年のデータを取得します。ダウンロードしたファイル…

2025-08-09

2010年から2024年のプロ野球の成績のデータの分析 8 - ランダムフォレストがロジスティクス回帰に負けることもある。

データ分析

www.crosshyou.info の続きです。今回はランダムフォレストで予測してみます。まず、モデルを作成します。エンジンは randomForest を使いました。 mtryなどのハイパーパラメータはあとでチューニングします。レシピの作成をします。文字列型データのダミ…

2025-08-02

2010年から2024年のプロ野球の成績のデータの分析 6 - 試合巧者のチームはどこか？

データ分析

www.crosshyou.info の続きです。前回の分析で、勝率 = 0.25 + 0.04 * 安打数 + 0.09 + 本塁打数 + 0.06 * 盗塁数 + 0.01 * 奪三振数 - 0.07 * 失点数というモデルを推計しました。今回はこのモデルで推定した勝率と実際の勝率を比較して、モデルの推定値…

2025-07-27

2010年から2024年のプロ野球の成績データの分析 5 - 盗塁のほうがヒットよりも勝率が上がる。

データ分析

www.crosshyou.info の続きです。前回は勝率を他の変数で説明する線形モデルを推定しました。あれから一晩たって、よく考えたら、打率と安打数などを一緒にするのは、よくないのでは？と思いました。安打数などを変えずに打率を上げる、下げるのは現実的でな…

2025-07-26

2010年から2024年のプロ野球の成績のデータ分析 4 - 線形回帰分析で勝率と関係のある変数を確認する。

データ分析

www.crosshyou.info 今回は、勝率と関係のある変数を線形回帰分析で確認してみます。 lm() 関数で線形モデルを推定します。基点となら線形モデルということで、lm_base という名前で保存します。 summary()関数で結果をみてみます。 p値が0.05以下の変数は…

2025-07-21

2010年から2024年のプロ野球の成績のデータ分析 3 - 勝率と打率、防御率、盗塁数の関係を視覚化

データ分析

www.crosshyou.info 前回は各種変数を1試合当たりの数値に直しました。今回はいくつかの変数を視覚化してみます。まずは、一番大事なwin_rate: 勝率の分布をヒストグラムにしてみてみましょう。 0.5を中心にした山型の分布ですね。次は、win_rate: 勝率とba…

2025-07-20

2010年から2024年のプロ野球の成績のデータ分析 2 - 安打数などを1試合当たりの値に修正する。

データ分析

www.crosshyou.info の続きです。前回は CSV ファイルのデータを R に取り込みました。今回は分析用のデータフレームを作りたいと思います。まず、私の大目標は、勝率に関連する変数は何か、例えば、打率と防御率ではどっちが重要か、ホームラン数と二塁打…

2025-07-19

2010年から2024年のプロ野球の成績のデータ分析 1 - CSV ファイルのデータを R に取り込む

データ分析

今回からしばらくは、プロ野球の勝敗のデータを分析してみたいと思います。日本野球機構のウェブサイトに、 https://npb.jp/bis/yearly/centralleague_2024.html こんな感じで毎年の各球団の成績表がありましたので、これをCSVファイルに2010年から2024年ま…

2025-07-13

賃金構造基本調査のデータ分析 10 - tidymodelsのyardstickパッケージでモデル評価

データ分析

www.crosshyou.info の続きです。前回までで、lmエンジン、glmnetエンジン、kknnエンジン、rangerエンジンでsaralyを予測してきました。最後にこれらのモデルの評価をしましょう。まずは、実際の saralyと各モデルの予測値を一つのデータフレームにまとめま…

Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

データ分析

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析6 - 課税所得と昼夜人口比率の関係を多重回帰分析で明らかにする。

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析5 - 昼夜人口比率と商品販売額の関係

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析4 - 昼夜人口比率と人口密度の関係

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析3 - 各変数の上位都市と下位都市

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析2 - 各変数のヒストグラムをRで描く。

全国の主要都市の人口密度、昼夜人口比率、商品販売額、課税所得のデータの分析1 - CSVファイルをRに読み込む。

国民生活に関する世論調査のデータの分析３ - 現在の生活が「満足」の割合を inferパッケージのワークフローで検定する

国民生活に関する世論調査のデータの分析２ - 「向上した」の比率の検定。prop.test()関数とブートストラップ法での検定

国民生活に関する世論調査のデータの分析１ - 去年と比べた生活の向上感について - カイ2乗検定で去年の結果と比較

UCI Machine Learning RepositoryのLetter Recognitionのデータの分析3 - RのrangerでA, B, Cを分類する。

UCI Machine Learning RepositoryのLetter Recognitionのデータの分析2 - RのglmnetでA, B, Cを識別するモデル

UCI Machine Learning RepositoryのLetter Recognitionのデータの分析1 - Rにデータを取り込む。

都道府県別の農家1戸当たりの米の年間供給量等のデータの分析4 - Rのprcomp()関数で主成分分析(PCA: Principal Component Analysis)

都道府県別の農家1戸当たりの米の年間供給量等のデータの分析3 - lm()関数で重回帰分析

都道府県別の農家1戸当たりの米の年間供給量等のデータの分析2 - lm()関数で単回帰分析

都道府県別の農家1戸当たりの米の年間供給量等のデータ分析1 - Rでエクセルからデータを読み込む

都道府県別の病院報告のデータの分析 6 - infer パッケージのワークフローでt検定

都道府県別の病院報告のデータの分析 5 - 精神科病院の在院患者数の比率 - 令和3年と令和5年の比較

都道府県別の病院報告のデータの分析 4 - 各データの地理的な傾向を調べる。

都道府県別の病院報告のデータの分析 3 - 精神科病院の患者数の比率の分析

都道府県別の病院報告のデータの分析 2 - 在院患者数の多い都道府県、少ない都道府県はどこか？

都道府県別の病院報告のデータの分析 1 - Rにデータを取り込む

2010年から2024年のプロ野球の成績のデータの分析 8 - ランダムフォレストがロジスティクス回帰に負けることもある。

2010年から2024年のプロ野球の成績のデータの分析 6 - 試合巧者のチームはどこか？

2010年から2024年のプロ野球の成績データの分析 5 - 盗塁のほうがヒットよりも勝率が上がる。

2010年から2024年のプロ野球の成績のデータ分析 4 - 線形回帰分析で勝率と関係のある変数を確認する。

2010年から2024年のプロ野球の成績のデータ分析 3 - 勝率と打率、防御率、盗塁数の関係を視覚化

2010年から2024年のプロ野球の成績のデータ分析 2 - 安打数などを1試合当たりの値に修正する。

2010年から2024年のプロ野球の成績のデータ分析 1 - CSV ファイルのデータを R に取り込む

賃金構造基本調査のデータ分析 10 - tidymodelsのyardstickパッケージでモデル評価