Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

2025-11-01から1ヶ月間の記事一覧

都道府県別の交際・付き合いの平均時間のデータの分析2 - 交際・付き合い時間は年を経るにつれて短時間になっている。

www.crosshyou.info の続きです。前回はCSVファイルにあったデータをRに読み込ませました。今回は交際・付き合いの平均時間がどのような分布なのか、グラフで視覚化してデータの土地勘というかデータ勘を把握しましょう。 まずは、男性の交際時間のヒストグ…

都道府県別の交際・付き合いの平均時間のデータの分析1 - Rにデータを読み込む

今回からしばらくは、都道府県別の交際・つきあいの時間のデータを分析してみたいと思います。 政府統計の総合窓口(www.e-stat.go.jp)からデータをダウンロードします。 ダウンロードしたデータは以下になります。 交際・付き合いに関係のありそうな変数とし…

上場企業の温室効果ガス排出のデータの分析4 - 温室効果ガスの排出量のは減ったのか増えたのか?

www.crosshyou.info の続きです。前回は温室効果ガスの排出量のヒストグラムを描きました。分布は対数正規分布に近い分布でした。対数正規分布は企業の売上高のような毎年毎年の成長率の積み重ねの性質のデータにみられる分布です。温室効果ガスの排出量も前…

読書記録 - 「就職氷河期世代 データで読み解く所得・家族形成・格差」 近藤 絢子 著 (中公新書)

就職氷河期世代 データで読み解く所得・家族形成・格差 (中公新書) 作者:近藤絢子 中央公論新社 Amazon 就職氷河期世代というのは、1993年から2004年に学校を卒業した世代を言うということで、この世代がその前のバブル世代、その後の世代と所得や婚姻などの…

上場企業の温室効果ガス排出のデータの分析3 - 温室効果ガスの排出量の上位企業

www.crosshyou.info の続きです。 前回までで、データフレームの体裁は整いました。今回からは実際にデータをみていきます。 まず、tCO2, これが温室効果ガスの排出量ですが排出量の多い事業者を確認します。 arrange()関数とdesc()関数で並び替えします。 …

上場企業の温室効果ガス排出のデータの分析2 - データフレームの体裁を整える。

www.crosshyou.info の続きです。前回はCSVファイルをRに読み込ませました。今回は読み込んだデータの体裁を整えましょう。 まず、会社の名前から、"株式会社"を削除します。str_remove()関数を使います。 次は会社の所在地から都道府県名だけの列を作ります…

読書記録 - 「富士山噴火 その日に備える」 藤井 敏嗣 著 (岩波新書)

富士山噴火 その日に備える (岩波新書) 作者:藤井 敏嗣 岩波書店 Amazon 私が子どもの頃は富士山は休火山と教わりましたが、今では休火山という分類は無いそうです。 一般的に火山の寿命は100万年くらいですが、富士山はまだ10万年ほどの年齢なので、と…

上場企業の温室効果ガス排出量のデータの分析1 - CSVファイルのデータをRに読み込む

今回からしばらくは、事業者別の温室効果ガスの排出量のデータを分析してみます。 温室効果ガス排出量算定・報告・公表制度 フロン類算定漏えい量報告・公表制度ウェブサイト - 事業者(事業所)別排出量等の公表 https://eegs.env.go.jp/ghg-santeikohyo-re…

UCI Machine Learning Repository の Wine Quality のデータの分析9 - e1071パッケージでナイーブベイズ・モデルによる分類

www.crosshyou.info の続きです。今回はナイーブ・ベイズモデルで分類してみましょう。 使用するパッケージは、e1071を使います。 モデルを生成する関数は、naiveBayes()です。そのままの名前ですね。 predict()関数で予測して、table()関数で結果を確認しま…

UCI Machine Learning Repository の Wine Quality のデータの分析8 - rangerパッケージでランダムフォレストで分類

www.crosshyou.info の続きです。今回はrangerパッケージでランダムフォレスト分類してみましょう。OLSでは53.9%, LASSO回帰では54.7%, k-NNでは62.8%でしたがランダムフォレストではこれらの正解率よりも高い正解率になるでしょうか? まず、rangerパッケー…

UCI Machine Learning Repository の Wine Quality のデータの分析7 - kknnパッケージで、k-Nearest-Neighborsで分類

www.crosshyou.info の続きです。前回はglmnetパッケージでLASSO回帰で分類してみました。lm()関数によるOLSでの推計では53.9%、cv.glmnet()関数によるLASSOでの推計では54.7%と線形モデルではこれ以上の正解率の向上は見込めそうにないので、今回は線形モデ…

BingがGoogleに勝った

はてなブログをしている人はご存じだと思いますが、アクセス解析でアクセス元サイトという情報があります。今日、私のブログ開設以来、はじめてBingがGoogleを上回りました。記録しておきます。

UCI Machine Learning Repository の Wine Quality のデータの分析6 - glmnetパッケージを使ってクオリティを推計

www.crosshyou.info 前回は lm()関数でクオリティを推計してみました。今回はglmnetパッケージを使ってクオリティを推計してみます。lm()関数での正解率は53.9%でしたので、この正解率を上回って欲しいです。 glmnetパッケージのcv.glmnet()関数でLASSO回帰…

UCI Machine Learning Repository の Wine Quality のデータの分析5 - lm()関数でクオリティを推測する

www.crosshyou.info の続きです。今回はいよいよ本丸のワインのクオリティを予測してみましょう。 まずはlm()関数で線形モデルをOLSで推計します。 citric_acid以外の変数は全て、有意な変数ですね。R2が0.3なのでそれほど正確な値を予測するモデルではない…

UCI Machine Learning Repository の Wine Quality のデータの分析4 - glmnetのロジスティクス回帰で赤ワインと白ワインを分類する。

www.crosshyou.info の続きです。 今回は glmnet パッケージを使って、赤ワインと白ワインをロジスティクス回帰で分類する、ということをやってみましょう。 まず、glmnet パッケージを読み込みます。 dfからglmnetで使えるようにマトリックスをつくります。…

UCI Machine Learning Repository の Wine Quality のデータの分析3 - 赤ワインと白ワインの違いをヒストグラムで視覚化

www.crosshyou.info の続きです。今回は赤ワインと白ワインの違いをヒストグラムにしてみてみます。 まずは、fixed_acidityです。 上段のピンクが赤ワインで、下段のグリーンが白ワインです。赤ワインのほうが幅広く分布しています。 このようなヒストグラム…