都道府県別の自動車(バス)輸送統計調査のデータ分析６ - エネルギー消費統計調査のデータも加えて回帰分析 - infer パッケージでシミュレーションベースの回帰分析

Bing Image Creator で生成: long far view photo, corn field and cotton flowers photo

の続きです。

前回は、輸送量の変化を人口の増減で回帰分析してみました。結果は人口は関係ない、という結果でした。

今回はさらに、

エネルギー消費統計調査のデータも加えて回帰分析してみます。

このように、2020年度と2022年度のデータが丁度よく揃っていました。

ダウンロードしたエクセルファイルは下のようなものでした。

これから、業種計だけとりだして、2020年度と2022年度を合わせて、下のような CSV ファイルにしました。

これを、R に読み込ませます。

inner_join() 関数で、df_new と df_energy を合体させます。

それでは、前回と同じように回帰分析してみます。

説明変数は、Y2020, pop_chg, Y2020_Energy, Energy_Chg です。

summary() 関数で結果をみてみます。

Energy_Chg の係数が -1.532 で p値が 0.0355 です。しかし、このモデル全体の p-value が 0.3233 と 0.05 よりも遥かに大きいので悩みどころですね。

数式ベースでは、悩ましいので、シミュレーションベースで有意かどうか判断しましょう。

infer パッケージのワークフローでシミュレーションベースの回帰分析をします。

こちらのウェブサイトで書かれているように実行します。

まず、lm() 関数でやったように、回帰分析の係数を求めます。

これらの係数は、先ほど summary() 関数で得た結果と同じですね。

次は、ブートストラップ法で係数の分布をシミュレーションします。

このブートストラップ法で生成した係数の分布から信頼区間を求めます。

Energy_Chg を含むすべての係数の 95% 信頼区間が 0 を含んでいます。

つまり、どの係数も統計的には有意な係数ではない、ということです。

今回は以上です。

次回は、

です。

最初から読むには、

です。