Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2026-01-01から1ヶ月間の記事一覧

都道府県別の商業動態統計調査のデータの分析3 - Tidy ANOVA (Analysis of Variance: 分散分析) with infer

www.crosshyou.info の続きです。前回は百貨店・スーパーの販売額の前年比をグラフにしました。 2021年度よりも、2022年度、2023年度のほうが前年比の平均値は高いようにグラフでは見えました。今回は、統計学的な観点からも確認しましょう。 2021年度、2022…

都道府県別の商業動態統計調査のデータの分析2 - Rでヒストグラムや箱ひげ図、散布図を描く。

www.crosshyou.info の続きです。前回はCSVファイルのデータをRに読み込ませました。今回はデータをグラフにしてみます。私が特に興味を持っているのは百貨店・スーパーの販売額の前年比です。まずは、ヒストグラムにしてデータの分布を見てみます。 前年比…

都道府県別の商業動態統計調査のデータの分析1 - データをRに読み込む。5つのデータフレームをbind_rows()関数で統合した。

今回からしばらくは、都道府県別の商業動態統計調査のデータを分析してみたいと思います。 上の図の四角で囲ったデータを使いました。 例えば、百貨店・スーパーならば、下の図のように、販売金額ではなくて増減率のデータだけにしました。 Excelにダウンロ…

読書記録 - 「インフレの時代 賃金・物価・金利のゆくえ」 渡辺 努 著 (中公新書)

インフレの時代 賃金・物価・金利のゆくえ (中公新書) 作者:渡辺努 中央公論新社 Amazon 日本の物価研究の一番の渡辺先生の本で、とてもわかりやすかったです。 物価が上昇し、賃金が上昇し、また物価が上昇し、また賃金が上昇するという賃金と物価の上昇の…

東証の上場会社の資金調達額のデータの分析6 - 前回の機械学習のモデルの内容確認する。

www.crosshyou.info の続きです。前回は株式公募の件数を予測するモデルを作成しました。線形モデル、Elastic-Netモデル、決定木モデル、ランダムフォレストモデルです。 今回はそのモデルの内容を確認します。extract_fit_engine()関数を使うとモデルをその…

東証の上場会社の資金調達額のデータの分析5 - 機械学習で株式公募の件数を予測する。

www.crosshyou.info の続きです。前回までの分析で、株式公募や債券発行での資金調達には季節性があること、株式公募と債券発行には相関があることが確認できました。 今回は、趣向を変えて、機械学習で株式公募の件数を予測してみます。 採用するモデルは、…

読書記録 - 「三屋清左衛門残日録」 藤沢 周平 著 (文春文庫)

三屋清左衛門残日録 (文春文庫) 作者:藤沢 周平 文藝春秋 Amazon 今年のお正月にBSフジで、北大路欣也さんが三屋清左衛門役のテレビ番組を放送していて、おもしろかったので、原作はどんなのだろうと興味を持って読んでみました。 テレビドラマよりも原作の…

東証の上場会社の資金調達額のデータの分析4 - 株式公募と債券発行に相関関係があるかどうかをシミュレーションで確認する。

www.crosshyou.info の続きです。前回は、株式公募や債券発行による資金調達には季節性があることが確認できました。今回は株式公募による資金調達と債券発行による資金調達には相関関係があるのかどうかを調べてみます。 まず、相関マトリックスをみてみま…

東証の上場会社の資金調達額のデータの分析3 - 資金調達に季節性があるかどうかをシミュレーションで確認する

www.crosshyou.info の続きです。前回は箱ひげ図を描いてみました。箱ひげ図を見る限りでは、資金調達には季節性があるようです。今回はシミュレーションや統計学の理論で季節性の有無を確認します。 まず、シミュレーションベースでの方法をしますので、inf…

東証の上場会社の資金調達額のデータの分析 2 - 資金調達に季節性はあるかどうかを箱ひげ図グラフで確認

www.crosshyou.info の続きです。今回は資金調達に季節性があるかどうかを調べたいと思います。 まずは、季節性を調べるために、月と四半期のカテゴリカル変数を作成します。 quarter別の平均値をみてみます。group_by()関数、summarize()関数、mean()関数を…

読書記録 - 「楽毅 (一)」 宮城谷 昌光 著 (新潮文庫)

楽毅(一) (新潮文庫) 作者:昌光, 宮城谷 新潮社 Amazon 新潮文庫の楽毅は(一)から(四)の4冊あります。4冊揃って読書記録にしようかとも思いましたが、1冊ずつ読書記録を書くことにしました。 楽毅は20年ぐらい前にも読んだことあります。そのときも面白か…

読書記録 - 「科学者が人間であること」 中村 桂子 著 (岩波新書)

科学者が人間であること (岩波新書) 作者:中村 桂子 岩波書店 Amazon 2013年8月に発行された本です。2011年の東日本大震災が原因の東京電力福島第一原発の事故の影響がこの本に現れています。 福島第一原発の事故では、「専門家」の解説の言葉が普通の人たち…

東証の上場会社資金調達額のデータの分析1 - RにCSVファイルのデータを読み込む。

今回からしばらくは東京証券取引所の上場会社の資金調達金額のデータを使って分析遊びをしてみようと思います。 上場会社資金調達額 | 日本取引所グループ その他統計資料のページの資金調達額のExcelファイルをダウンロードしました。 このようなファイルで…

UCI Machine Learning Repository の Predict Students' Dropout のデータの分析2 - ロジスティック回帰モデル、Elastic-Net, 決定木モデル、ランダムフォレストモデルでの予測

www.crosshyou.info の続きです。前回は単純なロジスティック回帰モデルで、ドロップアウトしたか否かのモデルを作成しました。今回は、あらためて、glm(ロジスティック回帰モデル)、glmnet(Elastic-Net), rpart(決定木モデル), ranger(ランダムフォレストモ…

読書記録 - 「孫子 - 「兵法の真髄」を読む」 渡邉 義浩 著 (中公新書)

孫子―「兵法の真髄」を読む (中公新書) 作者:渡邉義浩 中央公論新社 Amazon 三国志でおなじみの曹操が孫子を研究していて、注釈を加えていたということを知りました。この本はその、曹操が注釈を加えた孫子を解説した本です。 百戦して百勝するよりも、戦わ…

UCI Machine Learning Repository の Predict Students' Dropout のデータの分析1 - 単純なロジスティクス回帰モデルでも92.6%の高正解率

今回からしばらくは、UCI Machine Learning Repository のRealinho, V., Vieira Martins, M., Machado, J., & Baptista, L. (2021). Predict Students' Dropout and Academic Success [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432…

都道府県別の電子レンジ所有数量のデータの分析9 - Elastic-Netモデルに交差項と多項式項をモデルを加える。

www.crosshyou.info の続きです。 今回は、第7回目で試した、Elastic-Netモデルを少し発展させて、交差項と多項式項を加えてみます。 レシピに、step_interact()とstep_poly()を加えるだけです。 ワークフローを作成します。 モデルは同じglmnet_modを使うこ…

都道府県別の電子レンジ所有数量のデータの分析8 - ランダムフォレストモデルで予測して、予測結果をCopilotに解釈してもらいました。

www.crosshyou.info の続きです。 今回はランダムフォレストで予測をしてみましょう。 レシピをrecipe()関数で作成します。 モデルを作成します。rand_forest()関数でエンジンはrangerを使いました。 ランダムフォレストモデルでは、チューニングするパラメ…

読書記録 - 「醤油・味噌・酢はすごい 三大発酵調味料と日本人」 小泉 武夫 著 (中公新書)

醤油・味噌・酢はすごい 三大発酵調味料と日本人 (中公新書) 作者:小泉武夫 中央公論新社 Amazon 日本人が昔から口にしてきた醤油・味噌・酢についてその製造法や歴史、栄養、健康への効能などをまとめた本です。 あとがきに書いてあるように、まさにこの3…

都道府県別の電子レンジ所有数量のデータの分析7 - Elastic-Netのモデルで予測をする

www.crosshyou.info の続きです。前回は普通の線形モデルで予測しました。今回はElastic-Net、正則化付きの線形モデルで予測してみましょう。 まず、recipe()関数でレシピを作成します。 Elastic-Netでは数値型の変数は標準化しておきます。 次にモデルを作…

都道府県別の電子レンジ所有数量のデータの分析6 - tidymodelsの流れでLiner Regressionによる予測

www.crosshyou.info の続きです。今回はtidymodelsのワークフローに沿った回帰分析による電子レンジ所有数量の予測をしてみます。はじめは一番簡単な線形回帰モデル、前回までのモデルと同じです。そのあとは、ランダムフォレストなど他のモデルも試してみま…