www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

日銀の短観データの分析３ - R言語でANOVA。製造業よりも非製造業のほうが景気はいいようだ。

データ分析

www.crosshyou.info

の続きです。今回もANOVAをします。今度は、Sector(製造業、非製造業、全産業)を説明変数にして、Value、短観の値を反応変数にします。

またグラフでSectorによって短観の値に違いがあるか見てみましょう。

f:id:cross_hyou:20191009160101j:plain

f:id:cross_hyou:20191009160113j:plain

黒い点が製造業で黒い水平線が製造業の短観の平均値です。

赤い点が全産業で赤い水平線が全産業の短観の平均値です。

緑の点が非製造業で緑の水平線が非製造業の平均値です。業種による違いは大きそうですね。

tapply関数でそれぞれの業種の平均値を調べましょう。

f:id:cross_hyou:20191009160731j:plain

製造業の平均が1.39, 全産業の平均が7.57, 非製造業の平均が15.4です。業種による違いはありそうですね。

SSY, sum of the squares of the differences between y values and the overall meanを計算します。

f:id:cross_hyou:20191009161235j:plain

SSYは68298です。

SSE, the error sum of squaresを計算します。

f:id:cross_hyou:20191009162205j:plain

SSEは50073です。

SSAはSSY - SSEです。

f:id:cross_hyou:20191009162440j:plain

ここまでの結果をもとに、ANOVA表を作成します。

f:id:cross_hyou:20191009164718j:plain

D3のセル、ErrorのMean squareを計算します。

f:id:cross_hyou:20191009164932j:plain

f:id:cross_hyou:20191009165059j:plain

E2のセル、F ratioを計算します。

f:id:cross_hyou:20191009165201j:plain

f:id:cross_hyou:20191009165901j:plain

このF ratioの143が意味のある大きさかどうかが問題です。qf関数で調べます。

f:id:cross_hyou:20191009170033j:plain

143は3.865よりも大きいので、Sectorによって短観の結果に違いがある、ということですね。

aov関数とsummary関数で確認します。

f:id:cross_hyou:20191009170339j:plain

あ！Sectorは製造業、全産業、非製造業でしたから、Degrees of freedomは1ではなくて2ですね。さっきのANOVA表を訂正します。

f:id:cross_hyou:20191009170542j:plain

Mean square, F ratioを計算しなおします。

f:id:cross_hyou:20191009170808j:plain

f:id:cross_hyou:20191009170902j:plain

あらためて、aov関数とsummary関数の結果を提示します。

f:id:cross_hyou:20191009171006j:plain

p値が2e-16よりも小さいので、Sectorによって短観の値に違いはあります。

製造業よりも非製造業のほうが景況感はいいようですね。

今回は以上です。