Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

建設総合統計のデータ分析3 - R言語で2変数のデータ分析の練習。Minkan(民間)とKokyo(公共)を例にして。var.test関数、t.test関数、wilcox.test関数、cor.test関数。

 

www.crosshyou.info

 の続きです。

今回は2変数のデータ分析の練習をしてみます。Minkan(民間)とKokyo(公共)の2変数を例にします。

まずは、boxplot関数で2つ変数の箱ひげ図を見てみます。

f:id:cross_hyou:20200222113421p:plain

f:id:cross_hyou:20200222113435p:plain

 

Minkan(民間)のほうがvariance, 平均値が大きそうです。

次に、var.test関数で2つの変数のvarianceが同じかどうかを調べてみます。

f:id:cross_hyou:20200222110234p:plain

Minkanのvarianceは8,077,995,287で、Kokyoのvarianceは3,313,504,246です。Minaknのほうが2.5倍くらい大きいですね。variance.testの結果はp値は0.009992と0.05よりも小さいので、帰無仮説を棄却します。つまり二つの変数のvarianceは違う、ということです。

次は、2つの変数の平均値に有意な違いがあるかどうかを、t.test関数で調べます。

f:id:cross_hyou:20200222111422p:plain

Minkan(民間)の平均値は、3648億22百万円。Kokyo(公共)の平均値は、2386億63百万円です。t.testの結果、p値は1.802e-09と0.05よりも小さいので、帰無仮説(2つの平均値は同じ)を棄却します。Minkan(民間)とKokyo(公共)の2つの変数は平均値は違うということです。

wilcox.test関数でも確認します。

f:id:cross_hyou:20200222112241p:plain

p値は3.11e-10なので0.05よりも小さいので帰無仮説を棄却して対立仮説を採用します。true location shift is not equal to 0です。2つの変数の分布は同じではないということですね。

こんどは、plot関数で散布図を描いてみます。

f:id:cross_hyou:20200222114124p:plain

f:id:cross_hyou:20200222114133p:plain

正の相関があるように見えます。

cor.test関数で相関関係があるかどうかをテストします。

f:id:cross_hyou:20200222114410p:plain

p値は0.0001025と0.05よりも小さいので帰無仮説を棄却して対立仮説(相関は0ではない)を採用します。二つの変数には相関があって、その相関係数は0.6020464という値です。

今回は以上です。