www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の旅行・行楽の年間行動者率のデータの分析4 - R言語のsample関数とfor関数でモンテカルロシミュレーション

 

www.crosshyou.info

 の続きです。

今回はR言語のlm関数で回帰分析をしてみます。

response variableはforeign:海外旅行の年間行動者率、explanatory variableはtravel:旅行・行楽の年間行動者率にしてみます。

まずは、簡単にplot関数でX軸をtravel, Y軸をforeignにして散布図を描きます。

f:id:cross_hyou:20210114193207p:plain

f:id:cross_hyou:20210114193221p:plain

右肩上がりの散布図ですね。

cor.test関数で相関があるかどうかの検定をしてみます。

f:id:cross_hyou:20210114193418p:plain

相関係数は0.4488278で、95%信頼区間の相関係数は0.3267022 ~ 0.5562115 です。

p値は1.047e-10と0.05よりも小さいです。正の相関があると言えます。

そうだ、この相関係数の信頼区間をモンテカルロで求めてみましょう。

ちょっと横道にそれますがやってみます。

f:id:cross_hyou:20210114195317p:plain

180個あるdfのデータの中からランダムにn個(今回は100個)の行をとって、そのn個の行でtravelとforeignの相関係数を計算します。for関数でN回(今回は10万回)繰り返して、soukanという箱に入れました。

hist関数でヒストグラムを描いてみましょう。

f:id:cross_hyou:20210114194714p:plain

f:id:cross_hyou:20210114195500p:plain

正規分布っぽいヒストグラムですね。

quantile関数で下位0.025と上位0.975の値を求めます。

f:id:cross_hyou:20210114195633p:plain

つまり、10万個の相関係数の95%は0.3621309 ~ 0.5364974の間にある、ということです。cor.test関数での信頼区間0.3267022 ~ 0.5562115とよく似た値ですね。

今回はここまでです。

回帰分析するつもりがモンテカルロになってしましました。

次回は

 

www.crosshyou.info

 です。

はじめから読むには、

 

www.crosshyou.info

 です。