Generated by Bing Image Creator: photo of amazon river from the ground view
今回は、二つの変化率の相関についてみてみましょう。
はじめに散布図をRのggplot() + geom_point()関数で描いてみます。
geom_text() 関数もつかって都道府県名を表示しました。hjust = -0.1 として少しずらして文字を表示しています。
直線的な相関関係はなさそうですね。
cor.test() 関数で相関係数を計算してみます。
相関係数は0.02319286, 95%信頼区間は-0.2657439 ~ 0.308306, p値は0.877となりました。95%信頼区間の中に0があるので、散布図からの印象どおり、この2つの変化率は相関係数は無いようです。
cor.test() 関数は公式ベース(理論ベース)の結果です。
infer パッケージを使ってシミュレーションベースの相関の95%信頼区間を求めてみましょう。
Full infer Pipeline Examples • infer こちらのウェブサイトを真似してみます。
まずは、infer パッケージの読み込みです。
続いて、specify() 関数とcalculate() 関数で相関係数を求めます。
0.0232となりました。これは、(当然ですが) cor.test() 関数で求めた値と一致します。
ここからがシミュレーションベースです。ブートストラップ法で相関係数を何回も計算します。
generate()関数の中に、reps = 2000 として、2000回繰り返し、type = "bootstrap" としてブートストラップ法、としました。
信頼区間は get_ci()関数で求めることができます。
95%信頼区間は、-0.316 から 0.284 となりました。シミュレーションベースでも、0を含んでいます。
visualize()関数と、shade_confidence_interval()関数で視覚化してみましょう。
geom_vline() 関数も使って、理論ベースでの信頼区間を赤い線で表示しました。理論ベースのほうが右にずれています。
シミュレーションベース、理論ベースどちらでも企業数【社】総数 総数の変化率と面積【ha】総数 総数の変化率には相関関係はないことがわかりました。
今回は以上です。
次回は、
です。
初めから読むには、
です。