2025-11-01から1ヶ月間の記事一覧
www.crosshyou.info の続きです。前回はCSVファイルにあったデータをRに読み込ませました。今回は交際・付き合いの平均時間がどのような分布なのか、グラフで視覚化してデータの土地勘というかデータ勘を把握しましょう。 まずは、男性の交際時間のヒストグ…
今回からしばらくは、都道府県別の交際・つきあいの時間のデータを分析してみたいと思います。 政府統計の総合窓口(www.e-stat.go.jp)からデータをダウンロードします。 ダウンロードしたデータは以下になります。 交際・付き合いに関係のありそうな変数とし…
www.crosshyou.info の続きです。前回は温室効果ガスの排出量のヒストグラムを描きました。分布は対数正規分布に近い分布でした。対数正規分布は企業の売上高のような毎年毎年の成長率の積み重ねの性質のデータにみられる分布です。温室効果ガスの排出量も前…
就職氷河期世代 データで読み解く所得・家族形成・格差 (中公新書) 作者:近藤絢子 中央公論新社 Amazon 就職氷河期世代というのは、1993年から2004年に学校を卒業した世代を言うということで、この世代がその前のバブル世代、その後の世代と所得や婚姻などの…
www.crosshyou.info の続きです。 前回までで、データフレームの体裁は整いました。今回からは実際にデータをみていきます。 まず、tCO2, これが温室効果ガスの排出量ですが排出量の多い事業者を確認します。 arrange()関数とdesc()関数で並び替えします。 …
www.crosshyou.info の続きです。前回はCSVファイルをRに読み込ませました。今回は読み込んだデータの体裁を整えましょう。 まず、会社の名前から、"株式会社"を削除します。str_remove()関数を使います。 次は会社の所在地から都道府県名だけの列を作ります…
富士山噴火 その日に備える (岩波新書) 作者:藤井 敏嗣 岩波書店 Amazon 私が子どもの頃は富士山は休火山と教わりましたが、今では休火山という分類は無いそうです。 一般的に火山の寿命は100万年くらいですが、富士山はまだ10万年ほどの年齢なので、と…
今回からしばらくは、事業者別の温室効果ガスの排出量のデータを分析してみます。 温室効果ガス排出量算定・報告・公表制度 フロン類算定漏えい量報告・公表制度ウェブサイト - 事業者(事業所)別排出量等の公表 https://eegs.env.go.jp/ghg-santeikohyo-re…
www.crosshyou.info の続きです。今回はナイーブ・ベイズモデルで分類してみましょう。 使用するパッケージは、e1071を使います。 モデルを生成する関数は、naiveBayes()です。そのままの名前ですね。 predict()関数で予測して、table()関数で結果を確認しま…
www.crosshyou.info の続きです。今回はrangerパッケージでランダムフォレスト分類してみましょう。OLSでは53.9%, LASSO回帰では54.7%, k-NNでは62.8%でしたがランダムフォレストではこれらの正解率よりも高い正解率になるでしょうか? まず、rangerパッケー…
www.crosshyou.info の続きです。前回はglmnetパッケージでLASSO回帰で分類してみました。lm()関数によるOLSでの推計では53.9%、cv.glmnet()関数によるLASSOでの推計では54.7%と線形モデルではこれ以上の正解率の向上は見込めそうにないので、今回は線形モデ…
はてなブログをしている人はご存じだと思いますが、アクセス解析でアクセス元サイトという情報があります。今日、私のブログ開設以来、はじめてBingがGoogleを上回りました。記録しておきます。
www.crosshyou.info 前回は lm()関数でクオリティを推計してみました。今回はglmnetパッケージを使ってクオリティを推計してみます。lm()関数での正解率は53.9%でしたので、この正解率を上回って欲しいです。 glmnetパッケージのcv.glmnet()関数でLASSO回帰…
www.crosshyou.info の続きです。今回はいよいよ本丸のワインのクオリティを予測してみましょう。 まずはlm()関数で線形モデルをOLSで推計します。 citric_acid以外の変数は全て、有意な変数ですね。R2が0.3なのでそれほど正確な値を予測するモデルではない…
www.crosshyou.info の続きです。 今回は glmnet パッケージを使って、赤ワインと白ワインをロジスティクス回帰で分類する、ということをやってみましょう。 まず、glmnet パッケージを読み込みます。 dfからglmnetで使えるようにマトリックスをつくります。…
www.crosshyou.info の続きです。今回は赤ワインと白ワインの違いをヒストグラムにしてみてみます。 まずは、fixed_acidityです。 上段のピンクが赤ワインで、下段のグリーンが白ワインです。赤ワインのほうが幅広く分布しています。 このようなヒストグラム…