Photo by Jerry Adney on Unsplash
の続きです。
前回の分析で、どうやら海の無い県は工業用水の使用料が海のある県よりも少ないようです。
これを統計学的に検証してみましょう。
まず、2014年の海の無い県のwater_kachi: 製造業付加価値額当り工業用水量のベクトルを作ります。
次に海の有る県の2014年のwater_kachiのベクトルを作ります。
まずは、目でみて違いがあるかどうかみてみましょう。
これは一目瞭然ですね、海の無い県は断然、製造業付加価値額当り工業用水量は少ないですね。
両者の分散があきらかに違うので、wilcox.test()関数で両者の分布位置に違いがあるかどうかを確認します。
p-valueは1.669e-05です。e-05は0が5つということなので0.00001669ということですね。かぎりなく0に近いですので、帰無仮説を棄却して、対立仮説のtrue location is not equal to 0を採用します。両者の分布位置は同じではないです。
いちおう、t検定もt.test()関数でやってみます。
p-valueは4.297e-06ですので、やっぱり両者に違いはありますね。
製造業付加価値額当り工業用水量には地理的な違いがあることがわかりました。
時間的な違いはあるのかどうか調べてみましょう。
一番古い調査年の2001年と一番新しい調査年の2014年のwater_kachiを比べてみましょう。
まずは、2001年と2014年のwater_kachiの平均値を算出してみます。
2001年の平均値は1.97で2014年の平均値は1.84です。標準偏差がどちらの調査年も2を超えているので、単純な平均値の比較では差がないですね。
これは2001年と2014年の変化幅が0かどうかを調べる必要があります。
まず、2001年と2014年のwater_kachiのデータフレームを作りました。
spred()関数でロング型のデータフレームをワイド型のデータフレームに変換しています。
spread(data = 対象のデータフレーム,
key = 列の名前にしたい変数,
value = keyの中身になる変数)
という構文です。いつまでたっても覚えられません。
上のようにdf_0114というデータフレームを作成しました。
diffが変化幅ですね。これが0なのかどうかです。
t.test()関数で調べます。
p-valueが0.099です。5%の有意水準では、変化幅 = 0 という帰無仮説は棄却できませんが、10%の有意水準では棄却できます。
微妙なところですね。
今回は以上です。
次回は
です。
初めから読むには、
です。