データ分析
www.crosshyou.info の続きです。今回は課税所得と昼夜人口比率の関係を調べてみます。前回、前々回は昼夜人口比率と人口密度、昼夜人口比率と商品販売額と1つの変数と1つの変数の関係でしたが、今回は、人口密度と商品販売額をコントロールした上で、課税所…
www.crosshyou.info 前回の続きです。前回は昼夜人口比率と人口密度の関係を調べてみました、その結果、昼間の人口のほうが多い都市のほうが人口密度が低いことがわかりました。 今回は、昼夜人口比率と商品販売額の関係を調べてみましょう。前回は、dayとい…
(冒頭の画像は、Bing Image Creator で生成しました。プロンプトは Close up photograph of yellow daisy flowers, flowering under the high blue sky, photo です。) www.crosshyou.info の続きです。今回は昼間の人口が多い都市と夜の人口が多い都市の違…
www.crosshyou.info の続きです。 今回は各変数の上位都市、下位都市はどういう都市か確認します。 mitsudo: 人口密度から見ていきます。 可住地面積1平方km当りの人数です。一番多いのは、豊島区で22781人で、一番少ないのは山口氏の792人です。 次は昼夜人…
www.crosshyou.info の続きです。 今回は各変数のヒストグラムを描いて、どんな感じの分布なのかを確認します。 まずは、人口密度からです。 人口密度の低い都市が多い分布ですね。 ここで、geom_histogram(color = "white", bins = 20)のところは何度も使う…
今回は東京23区や県庁所在市、政令都市、中核都市のデータを分析してみようと思います。政府統計の総合窓口(e-stat)からデータを取得します。 このように都市を選択します。 データは上の4つのデータをしてみました。人口密度、昼夜人口比率、商品販売額、…
www.crosshyou.info の続きです。前回、前々回は去年と比べた生活の向上感をみました。今回は現在の生活の満足度をみてみます。 令和7年の調査では満足は50.2%(2729人中)で、令和6年は52.0%(1831人中)でした。 1.8ポイントの低下です。果たしてこの1.8ポイン…
www.crosshyou.info の続きです。今回は、去年よりも今年のほうが「向上した」という比率だけに注目します。 令和7年の「向上した」の比率は、5.3%で、令和6年の「向上した」の比率は、4.7%です。0.6パーセンテージ・ポイントの差がありますが、これは統計的…
今回は、昨日(9月26日)発表された、内閣府が実施した「国民生活に関する世論調査」をみてみます。 https://survey.gov-online.go.jp/202509/r07/r07-life/gairyaku.pdf このPDFファイルが調査結果ですね。 第1問は去年と比べた生活の向上感を質問しています…
www.crosshyou.info の続きです。前回はglmnetのfamily = "multinomial"のモデルでA, B, Cを分類しました。 結果は、99.1%という正解率でした。 今回は、rangerパッケージでランダムフォレストのモデルで同じデータで予測してみます。 まずは、パッケージの…
www.crosshyou.info の続きです。前回はUCIのLetter RecognitionのデータをRに取り込みました。これから、文字認識のモデルを作成していきます。 とはいうものの、26文字全てを認識するモデルを作るのは私にはできないので、今回は、A, B, Cの3文字を識別す…
今回は、UCI Machine Learning RepositoryのLetter Recognition (Slate, D. (1991). Letter Recognition [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5ZP40.)のデータを分析してみようと思います。 ダウンロードしたデータは、 …
www.crosshyou.info の続きです。前回はlm()関数で重回帰分析をしました。 今回は、PCA(Principal Component Analysis), 主成分分析をしてみたいと思います。 prcomp()関数を使います。 prefは都道府県名なので除外しています。siryoとkakoはNAがあるので除…
www.crosshyou.info の続きです。前回は、dtotal: 総需要量を stotal: 総供給量という一つの説明変数で単回帰分析しました。今回はその他の説明変数を加えて、重回帰分析をしてみようと思います。 てはじめにfzaiko: 期初の在庫量と lzaiko: 期末の在庫量を…
www.crosshyou.info の続きです。前回はエクセルに保存してあるデータをRに読み込みました。今回は読み込んだデータをみていきます。 まず、summary()関数で各変数の統計値を確認します。 あれ!?siryoとkakoが数値データでなくて、文字列データとして処理…
今回は、政府統計の総合窓口(www.e-stat.go.jp)から生産者の米穀在庫等調査のデータを分析してみます。 www.e-stat.go.jp 「本調査は毎月、農家の米穀の在庫等を調査し、~~~」ってありますが、e-statにあるのは2019-01-08に公開した統計だけです。このよ…
www.crosshyou.info の続きです。前回は、t.test()関数で令和5年の精神科病院の在院患者数の比率と令和3年の比率を比較して、統計的に有意な差は認められないことを確認しました。 今回は、inferパッケージのワークフローを適用して、コンピューターシミュレ…
www.crosshyou.info の続きです。 今回は令和3年と令和5年の精神科病院の患者数の比率を比較して、比率が増えているのか、減っているのかをみてみましょう。 令和3年の精神科病院の患者数の比率を確認します。 在院患者数の比率は0.193が平均値です。 令和5…
www.crosshyou.info の続きです。今回は、各データが地理的な傾向があるかどうかを見てみたいと思います。まず、したの図のようなCSVファイルをCopilotに相談して作りました。 これを読み込みます。 これを基のデータフレーム、dfと結合します。 これで準備…
www.crosshyou.info の続きです。今回はseishin: 精神科病院の患者数がどのくらいの比率を占めるかに注目してみます。 まず、seishin / total を計算して比率を計算します。 それでは、どこの都道府県が比率が高いか低いかを確認します。 まず、在院患者数の…
www.crosshyou.info の続きです。 どこの都道府県が患者数が多いか・少ないかをみてみます。 まずは、在院患者数の多いところをみてみます。 高知県、鹿児島県、長崎県が上位3件です。高知県の令和3年度は、人口10万人当たりの在院患者数が1866人でした。 少…
今回からしばらくは、都道府県別の病院報告のデータの分析をしたいと思います。 政府統計の総合窓口、e-statのウェブサイトからデータを取得します。 令和5年の人口10万人対1日平均患者数のデータと 令和3年のデータを取得します。 ダウンロードしたファイル…
www.crosshyou.info の続きです。今回はランダムフォレストで予測してみます。 まず、モデルを作成します。エンジンは randomForest を使いました。 mtryなどのハイパーパラメータはあとでチューニングします。 レシピの作成をします。 文字列型データのダミ…
www.crosshyou.info の続きです。 前回の分析で、勝率 = 0.25 + 0.04 * 安打数 + 0.09 + 本塁打数 + 0.06 * 盗塁数 + 0.01 * 奪三振数 - 0.07 * 失点数 というモデルを推計しました。 今回はこのモデルで推定した勝率と実際の勝率を比較して、モデルの推定値…
www.crosshyou.info の続きです。前回は勝率を他の変数で説明する線形モデルを推定しました。あれから一晩たって、よく考えたら、打率と安打数などを一緒にするのは、よくないのでは?と思いました。安打数などを変えずに打率を上げる、下げるのは現実的でな…
www.crosshyou.info 今回は、勝率と関係のある変数を線形回帰分析で確認してみます。 lm() 関数で線形モデルを推定します。 基点となら線形モデルということで、lm_base という名前で保存します。 summary()関数で結果をみてみます。 p値が0.05以下の変数は…
www.crosshyou.info 前回は各種変数を1試合当たりの数値に直しました。今回はいくつかの変数を視覚化してみます。まずは、一番大事なwin_rate: 勝率の分布をヒストグラムにしてみてみましょう。 0.5を中心にした山型の分布ですね。 次は、win_rate: 勝率とba…
www.crosshyou.info の続きです。前回は CSV ファイルのデータを R に取り込みました。今回は分析用のデータフレームを作りたいと思います。 まず、私の大目標は、勝率に関連する変数は何か、例えば、打率と防御率ではどっちが重要か、ホームラン数と二塁打…
今回からしばらくは、プロ野球の勝敗のデータを分析してみたいと思います。 日本野球機構のウェブサイトに、 https://npb.jp/bis/yearly/centralleague_2024.html こんな感じで毎年の各球団の成績表がありましたので、これをCSVファイルに2010年から2024年ま…
www.crosshyou.info の続きです。前回までで、lmエンジン、glmnetエンジン、kknnエンジン、rangerエンジンでsaralyを予測してきました。最後にこれらのモデルの評価をしましょう。 まずは、実際の saralyと各モデルの予測値を一つのデータフレームにまとめま…