www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の企業の土地取得状況等に関する調査のデータ分析4 - Rで相関関係の有無をチェック。理論ベースとシミュレーションベースで。

Generated by Bing Image Creator: photo of amazon river from the ground view

www.crosshyou.info

今回は、二つの変化率の相関についてみてみましょう。

はじめに散布図をRのggplot() + geom_point()関数で描いてみます。

geom_text() 関数もつかって都道府県名を表示しました。hjust = -0.1 として少しずらして文字を表示しています。

直線的な相関関係はなさそうですね。

cor.test() 関数で相関係数を計算してみます。

相関係数は0.02319286, 95%信頼区間は-0.2657439 ~ 0.308306, p値は0.877となりました。95%信頼区間の中に0があるので、散布図からの印象どおり、この2つの変化率は相関係数は無いようです。

cor.test() 関数は公式ベース(理論ベース)の結果です。

infer パッケージを使ってシミュレーションベースの相関の95%信頼区間を求めてみましょう。

Full infer Pipeline Examples • infer こちらのウェブサイトを真似してみます。

まずは、infer パッケージの読み込みです。

続いて、specify() 関数とcalculate() 関数で相関係数を求めます。

0.0232となりました。これは、(当然ですが) cor.test() 関数で求めた値と一致します。

ここからがシミュレーションベースです。ブートストラップ法で相関係数を何回も計算します。

generate()関数の中に、reps = 2000 として、2000回繰り返し、type = "bootstrap" としてブートストラップ法、としました。

信頼区間は get_ci()関数で求めることができます。

95%信頼区間は、-0.316 から 0.284 となりました。シミュレーションベースでも、0を含んでいます。

visualize()関数と、shade_confidence_interval()関数で視覚化してみましょう。

geom_vline() 関数も使って、理論ベースでの信頼区間を赤い線で表示しました。理論ベースのほうが右にずれています。

シミュレーションベース、理論ベースどちらでも企業数【社】総数 総数の変化率と面積【ha】総数 総数の変化率には相関関係はないことがわかりました。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。