の続きです。
今回は2変数のデータ分析の練習をしてみます。Minkan(民間)とKokyo(公共)の2変数を例にします。
まずは、boxplot関数で2つ変数の箱ひげ図を見てみます。
Minkan(民間)のほうがvariance, 平均値が大きそうです。
次に、var.test関数で2つの変数のvarianceが同じかどうかを調べてみます。
Minkanのvarianceは8,077,995,287で、Kokyoのvarianceは3,313,504,246です。Minaknのほうが2.5倍くらい大きいですね。variance.testの結果はp値は0.009992と0.05よりも小さいので、帰無仮説を棄却します。つまり二つの変数のvarianceは違う、ということです。
次は、2つの変数の平均値に有意な違いがあるかどうかを、t.test関数で調べます。
Minkan(民間)の平均値は、3648億22百万円。Kokyo(公共)の平均値は、2386億63百万円です。t.testの結果、p値は1.802e-09と0.05よりも小さいので、帰無仮説(2つの平均値は同じ)を棄却します。Minkan(民間)とKokyo(公共)の2つの変数は平均値は違うということです。
wilcox.test関数でも確認します。
p値は3.11e-10なので0.05よりも小さいので帰無仮説を棄却して対立仮説を採用します。true location shift is not equal to 0です。2つの変数の分布は同じではないということですね。
こんどは、plot関数で散布図を描いてみます。
正の相関があるように見えます。
cor.test関数で相関関係があるかどうかをテストします。
p値は0.0001025と0.05よりも小さいので帰無仮説を棄却して対立仮説(相関は0ではない)を採用します。二つの変数には相関があって、その相関係数は0.6020464という値です。
今回は以上です。