Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の自動車(バス)輸送統計調査のデータ分析6 - エネルギー消費統計調査のデータも加えて回帰分析 - infer パッケージでシミュレーションベースの回帰分析

 Bing Image Creator で生成: long far view photo, corn field and cotton flowers photo

www.crosshyou.info

の続きです。

前回は、輸送量の変化を人口の増減で回帰分析してみました。結果は人口は関係ない、という結果でした。

今回はさらに、

エネルギー消費統計調査のデータも加えて回帰分析してみます。

このように、2020年度と2022年度のデータが丁度よく揃っていました。

ダウンロードしたエクセルファイルは下のようなものでした。

これから、業種計だけとりだして、2020年度と2022年度を合わせて、下のような CSV ファイルにしました。

これを、R に読み込ませます。

inner_join() 関数で、df_new と df_energy を合体させます。

それでは、前回と同じように回帰分析してみます。

説明変数は、Y2020, pop_chg, Y2020_Energy, Energy_Chg です。

summary() 関数で結果をみてみます。

Energy_Chg の係数が -1.532 で p値が 0.0355 です。しかし、このモデル全体の p-value が 0.3233 と 0.05 よりも遥かに大きいので悩みどころですね。

数式ベースでは、悩ましいので、シミュレーションベースで有意かどうか判断しましょう。

infer パッケージのワークフローでシミュレーションベースの回帰分析をします。

https://infer.netlify.app/articles/observed_stat_examples#multiple-explanatory-variables-1

こちらのウェブサイトで書かれているように実行します。

まず、lm() 関数でやったように、回帰分析の係数を求めます。

これらの係数は、先ほど summary() 関数で得た結果と同じですね。

次は、ブートストラップ法で係数の分布をシミュレーションします。

このブートストラップ法で生成した係数の分布から信頼区間を求めます。

Energy_Chg を含むすべての係数の 95% 信頼区間が 0 を含んでいます。

つまり、どの係数も統計的には有意な係数ではない、ということです。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

最初から読むには、

www.crosshyou.info

です。