Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

データ分析

UCI Machine Learning Repository の Raisin のデータ分析6 - ニューラルネットワークによる判別、正解率は86.3%

Bing Image Creator で生成: Wideshot view of Japanese forest, photo www.crosshyou.info の続きです。 今回は、Rのnnetパッケージでニューラルネットワークによる判別をしてみます。 まずは、nnetパッケージを読み込みます。 nnet()関数でニューラルネッ…

UCI Machine Learning Repository の Raisin のデータ分析5 - LASSO回帰による判別、正解率は83.7%

Bing Image Creator で生成: Bird's view of green grass fields, some small lakes, some woods, blue sky, white clouds, photo www.crosshyou.info の続きです。 今回はLASSO回帰による判別をします。使うパッケージは、glmnetパッケージです。 まず、パ…

UCI Machine Learning Repository の Raisin のデータ分析4 - サポートベクターマシーンによる判別、正解率は84%

Bing Image Creator で生成: Birdsview of rainforest jungles, running small river, photo www.crosshyou.info の続きです。 今回はkernlabパッケージをのksvm()関数を使ってサポートベクターマシーンによる判別をします。 まず、パッケージを読み込みます…

UCI Machine Learning Repository の Raisin のデータ分析3 - 決定木モデルによる判別、正解率は83%

Bing Image Creator で生成: Landscape photograph, huge rock and tiny flowers, blue sky in ancient times www.crosshyou.info の続きです。 今回は、rpartパッケージを使って、決定木モデルによる判別を試してみます。 まず、rpartパッケージとrpart.plo…

UCI Machine Learning Repository の Raisin のデータ分析2 - デタラメに判別したら、56%の正解率でした。

Bing Image で生成: Longview of "Shirakawa Go" summer season, photo www.crosshyou.info の続きです。加工したデータにもう少し手を加えます。 まず、各Feature変数を2乗した値を作ります。 これを、dfとくっつけます。 続いて、各Feature変数の交差項を…

UCI Machine Learning Repository の Raisin のデータ分析1 - CSVファイルを読み込み、データを加工する

Bing Image Creator で生成: Wide-shot of grape fields, no human image, photo 今回は、UCI Machine Learning Repositry の Raisin のデータでクラシフィケーションをしてみたいと思います。 Çinar,İ̇lkay, Koklu,Murat, and Tasdemir,Sakir. (2023). Rais…

都道府県別の工場立地動向調査のデータの分析8- サポートベクターマシーンによるデータ分析

Bing Image Creator で生成: Closeup of flowering Oenothera tetraptera, background is Silent night, milky way, full moon, , photo www.crosshyou.info の続きです。今回はサポートベクターマシーンによる判別をしてみます。 使用するパッケージは、ker…

都道府県別の工場立地動向調査のデータの分析7 - LASSO回帰分析による判別

Bing Image Creator で生成: Closeup of flowering Dianthus, Winter season, small fire, photo www.crosshyou.info の続きです。 前回は決定木モデルで判別しました。今回はLASSO回帰によるモデルで判別してみます。glmnetパッケージを読み込みます。 glmn…

都道府県別の工場立地動向調査のデータの分析6 - 決定木モデルによる判別はデタラメ予測より2倍以上の予測精度

Bing Image Creator で生成: Closeup Asian Dayflower, flowering by small river which runs high mountains www.crosshyou.info の続きです。 前回は階層的クラスタリングを実行して、都道府県の3つのクラスターに分けました。 今回は、rpart パッケージ…

都道府県別の工場立地動向調査のデータの分析5 - 階層的クラスタリング

Bing Image Creator で生成: Flower garden, Autum season, Photo www.crosshyou.info の続きです。 今回は、Rで階層的クラスタリングをしてみます。 まず、データフレームからマトリックスを生成します。 次に、dist()関数で距離オブジェクトを生成します。…

都道府県別の工場立地動向調査のデータの分析4 - ブートストラップ法で相関係数の信頼区間を算出してグラフにする。

Bing Image Creator で生成: Closeup flowering Canola blossoms, near small river side, blue sky, green grass, white clouds, photo www.crosshyou.info の続きです。 前回の分析で、都道府県別の平均件数、平均面積、平均1件当たりの面積は正の相関関係…

都道府県別の工場立地動向調査のデータの分析3 - 棒グラフと散布図でデータの関係を見る

Bing Image Creator で生成: wide view of flowering apple trees, blue sky and small clouds, photo www.crosshyou.info の続きです。 今度は、都道府県別の平均値のデータフレームを生成します。 こんなかたちで、平均値、最小値、最大値のデータフレーム…

都道府県別の工場立地動向調査のデータの分析2 - 工場立地面積の多い県は?東京ドームと比較すると、約448個分

Bing Image Creator で生成: Longview of summer sunflowers, green grass, ancient times, photo www.crosshyou.info の続きです。 前回は分析のデータフレームを生成するところまででした。今回はそれらのデータをグラフにしてみたりします。 まずは、全国…

都道府県別の工場立地動向調査のデータの分析1 - CSVファイルのデータをRに取り込み、pivot_longer(), select(), filter(), mutate(), inner_join()などで加工する

Bing Image Generator で生成: Close up of flowering Hibiscus, on the beach side, coral sea, blue sky and white could, photo 今回からしばらくは、都道府県別の工場立地動向調査のデータを分析してみます。 政府統計の総合窓口(e-stat.go.jp)からデー…

UCI の Letter Recognition のデータの分析4 - glmnet パッケージの multinomial regression で4つの文字を判別する

Bing Image Creator で生成: Closeup flowering pansy, by the clear lake, photo www.crosshyou.info の続きです。 前回は決定木モデルで4つの文字、U, D, T, P を判別しました。 今回は glmnet パッケージを使って multinomial regression で4つの文字を…

UCI の Letter Recognition のデータの分析3 - 決定木モデルで4つの文字を判別する。

Bing Image Creator で生成: Long wide view of landscape for flowering dogwood forest. white cloud, blue sky, photo www.crosshyou.info の続きです。前回は U と D の区別をロジスティクス回帰でやってみました。99%という高い正解率でしたね。 今回は…

UCI の Letter Recognition のデータの分析2 - R でロジスティクス回帰分析をして D と U を判別。正解率は 99.57%

Bing Image Creator で生成: landscape, long view, flowers of Agapanthus, blue sky, white clouds, photo www.crosshyou.info の続きです。 前回は U と D だけのデータフレームを作成しました。各変数の差を計算すると、X12 や X14 が違いが大きかったで…

UCI の Letter Recognition のデータの分析1 - R にデータを読み込む。

Bing Image Creator で生成: Natural landscape, long beach, flowering red morning glories and yellow sunflowers, blue sky and white clouds, sunset, photo 今回は UCI の Letter Recognition のデータを分析してみようと思います。 Slate,David. (199…

失業率・第3次産業活動指数・消費者物価指数の時系列データ分析7 - ランダムフォレストのほうが線形回帰OLSより良い結果になるとは限らない。

Bing Image Creator で生成:Landscape, natural rural area forest, photo www.crosshyou.info の続きです。 前回は、線形モデルをOLSで推計して第3次産業活動指数を予測しました。 今回はランダムフォレストでモデルを推計して予測してみましょう。 まず、…

失業率・第3次産業活動指数・消費者物価指数の時系列データ分析6 - tidymodels パッケージで第3次産業活動指数を予測する。

Bing Image Creator で生成: Shining grass field, long view, photo www.crosshyou.info の続きです。 いままでは、計量経済学っぽいことをしてきました。今回はデータサイエンスっぽいことをしてみます。 第3次活動指数を失業率と消費者物価指数から予測し…

失業率・第3次産業活動指数・消費者物価指数の時系列データ分析5 - AR(1) モデルで推計して、前回のモデルと比較する。

Bing Image Creator で生成: Landscape, Nemophila flowers and blue ocean, photo www.crosshyou.info の続きです。 今回は、Autregressive Model of Order 1, AR(1) モデルをOLSで推定してみます。 dai3ji(t) = β0 + β1 * dai3ji(t-1) + トレンド + 季節性…

失業率・第3次産業活動指数・消費者物価指数の時系列データ分析4 - Serial Correlation の有無をテストして、Cochrane - Orcutt 法を使って推定する。

Bing Image Creator で生成: Clover flowers, photo, landscape www.crosshyou.info の続きです。 前回は、 第3次産業活動指数 = 118.4862 - 5.7238 * 失業率 + トレンド + 季節性 + 誤差項 という回帰式を得るところまでできました。 今回は、 Introductory…

失業率・第3次産業活動指数・消費者物価指数の時系列データ分析3 - 失業率が上昇すると、第3次産業活動指数は低下する。

Bing Image Creator で生成: green field of daisies flowers, background is galaxy stars, photo www.crosshyou.info の続きです。 前回は、Finite Distributed Lag Model という枠組みで、 dai3ji = β0 + β1 * unem + β2 * L(unem) + β3L(unem, 2) + u と…

失業率・第3次産業活動指数・消費者物価指数の時系列データ分析2 - Static Model と Finite Distributed Lag Model - 失業率が上昇すると、第3次産業活動指数は低下する。

Bing Image Creatorで生成: Hydrangea flowers in nature wild fields, photo www.crosshyou.info の続きです。 前回は、CSVファイルのデータを R に読み込みました。 まずは、plot() 関数でグラフにしてみます。 どうでしょうか、第3次産業活動指数は、定期…

失業率・第3次産業活動指数・消費者物価指数の時系列データ分析1 - R でデータを読み込む。

Bing Image Creator で生成: Beautiful early spring nature landscape Japan 今までクロスセクションのデータばかりを扱ってきましたので、今回は時系列データの分析の練習をしてみたいと思います。 使用するデータは、全国ベースの失業率、第3次産業活動指…

東証の規模別・業種別のPER・PBRのデータの分析3 - R で t検定と回帰分析の手法で2022年と2024年の違いを調べる

Bing Image Creator で生成 : beautiful landscape photo, blue sky and blue ocean and red flowers. www.crosshyou.info の続きです。前回は箱ひげ図を描いて、2022年と2024年の各データの分布を視覚化しました。 今回は、t検定、回帰分析の手法で統計学的…

東証の規模別・業種別のPER・PBRのデータの分析2 - R で箱ひげ図を描き、2022年と2024年を比較する

Bing Image Creator で生成 : close up of dandelion flowers field, joyful atmosphere, natural photo www.crosshyou.info の続きです。 今回は R で箱ひげ図を作り、2022年と2024年で分布に違いがあるかどうかをみてみましょう。ggplot2 パッケージの geo…

東証の規模別・業種別のPER・PBRのデータの分析1 - データを R に読み込み、summary() 関数で基本統計量を確認する

Bing Image Creator で生成 : Long wide view of emerald mountains 今回は、東証の規模別・業種別のPER・PBRのデータを分析してみます。 その他統計資料 | 日本取引所グループ (jpx.co.jp) 東証のプライム市場が始まった 2022年4月のデータと直近の2023年4…

UCI の Breast Cancer Wisconsin (Diagnostics) のデータ分析6 - R の kernlab パッケージでサポートベクターマシーンで予測正解率 100% を達成

Bing Image Creator で生成: Nemophila menziesii large fields, long landscape view photo www.crosshyou.info の続きです。 今回は、R の kernlab パッケージでサポートベクターマシーンの手法で予測してみます。まず、kernlab パッケージを読み込みます…

UCI の Breast Caner Wisconsin (Diagnostics) のデータ分析5 - R の nnet パッケージでニューラルネットワークの手法で予測

Bing Image Creator で生成: Long wide view of alps mountains and small town, photo style www.crosshyou.info の続きです。 今回は、R の nnet パッケージを利用して、ニューラルネットワーク で予測してみようと思います。 はじめに、nnet パッケージ読…