の続きです。
今回はR言語のlm関数で回帰分析をしてみます。
response variableはforeign:海外旅行の年間行動者率、explanatory variableはtravel:旅行・行楽の年間行動者率にしてみます。
まずは、簡単にplot関数でX軸をtravel, Y軸をforeignにして散布図を描きます。
右肩上がりの散布図ですね。
cor.test関数で相関があるかどうかの検定をしてみます。
相関係数は0.4488278で、95%信頼区間の相関係数は0.3267022 ~ 0.5562115 です。
p値は1.047e-10と0.05よりも小さいです。正の相関があると言えます。
そうだ、この相関係数の信頼区間をモンテカルロで求めてみましょう。
ちょっと横道にそれますがやってみます。
180個あるdfのデータの中からランダムにn個(今回は100個)の行をとって、そのn個の行でtravelとforeignの相関係数を計算します。for関数でN回(今回は10万回)繰り返して、soukanという箱に入れました。
hist関数でヒストグラムを描いてみましょう。
正規分布っぽいヒストグラムですね。
quantile関数で下位0.025と上位0.975の値を求めます。
つまり、10万個の相関係数の95%は0.3621309 ~ 0.5364974の間にある、ということです。cor.test関数での信頼区間0.3267022 ~ 0.5562115とよく似た値ですね。
今回はここまでです。
回帰分析するつもりがモンテカルロになってしましました。
次回は
です。
はじめから読むには、
です。