Bing Image Creator で生成: long far view photo, corn field and cotton flowers photo
の続きです。
前回は、輸送量の変化を人口の増減で回帰分析してみました。結果は人口は関係ない、という結果でした。
今回はさらに、
エネルギー消費統計調査のデータも加えて回帰分析してみます。
このように、2020年度と2022年度のデータが丁度よく揃っていました。
ダウンロードしたエクセルファイルは下のようなものでした。
これから、業種計だけとりだして、2020年度と2022年度を合わせて、下のような CSV ファイルにしました。
これを、R に読み込ませます。
inner_join() 関数で、df_new と df_energy を合体させます。
それでは、前回と同じように回帰分析してみます。
説明変数は、Y2020, pop_chg, Y2020_Energy, Energy_Chg です。
summary() 関数で結果をみてみます。
Energy_Chg の係数が -1.532 で p値が 0.0355 です。しかし、このモデル全体の p-value が 0.3233 と 0.05 よりも遥かに大きいので悩みどころですね。
数式ベースでは、悩ましいので、シミュレーションベースで有意かどうか判断しましょう。
infer パッケージのワークフローでシミュレーションベースの回帰分析をします。
https://infer.netlify.app/articles/observed_stat_examples#multiple-explanatory-variables-1
こちらのウェブサイトで書かれているように実行します。
まず、lm() 関数でやったように、回帰分析の係数を求めます。
これらの係数は、先ほど summary() 関数で得た結果と同じですね。
次は、ブートストラップ法で係数の分布をシミュレーションします。
このブートストラップ法で生成した係数の分布から信頼区間を求めます。
Energy_Chg を含むすべての係数の 95% 信頼区間が 0 を含んでいます。
つまり、どの係数も統計的には有意な係数ではない、ということです。
今回は以上です。
次回は、
です。
最初から読むには、
です。