Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の工場立地動向調査のデータの分析4 - ブートストラップ法で相関係数の信頼区間を算出してグラフにする。

Bing Image Creator で生成: Closeup flowering Canola blossoms, near small river side, blue sky, green grass, white clouds, photo

 

www.crosshyou.info

の続きです。

前回の分析で、都道府県別の平均件数、平均面積、平均1件当たりの面積は正の相関関係があるらしいことがわかりました。

今回は、infer パッケージを使って、そのことを確認してみます。

Full infer Pipeline Examples • infer

ここにあるコードを参考にします。

library() 関数で infer パッケージの読み込みをしておきます。

まずは、観測された相関係数を調べます。inferパッケージのspecify()関数とcalculate()関数を使います。

件数の平均と面積の平均の相関係数は0.914でした。

件数の平均と1件当たりの面積の平均の相関係数は0.172でした。

面積の平均と1件当たりの面積の平均の相関係数は0.467でした。

続いて、ブートストラップでそれぞれの分布を生成します。specify()関数とcalculate()関数の間にgenerate()関数を挿入してブートストラップの分布を生成します。

get_ci()関数で信頼区間を算出します。

件数の平均と1件当たりの面積の平均の相関係数の95%信頼区間は-0.160から0.466と0をまたいでいるので、正の相関があるとは言えませんね。

他の2つのペアは0をまたいでいないので、確かに正の相関があると言えますね。

最後にブートストラップの分布のヒストグラムに信頼区間を重ねてグラフにします。

3つのグラフを一つの画面に表示させたいので、patchworkパッケージの読み込みをしておきます。

visualize()関数でブートストラップの分布のヒストグラムを描き、shade_confidence_intaval()関数で信頼区間をヒストグラムに重ねて、

geom_vline()関数で0の位置に垂線を表示します。

件数の平均と1件当たりの面積の平均の相関係数は信頼区間が0をまたいでいることがグラフでも確認できました。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。