www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

景気ウォッチャー調査地域別(現状)のデータ分析４ - R言語で地域をファクタにしてANOVA分析

データ分析

www.crosshyou.info

の続きです。

今回は地域をファクタにしてANOVA分析をしてみたいと思います。

まずは、tapply関数とmean関数で地域別の平均値を出してみます。

f:id:cross_hyou:20200125103637p:plain

沖縄が一番高くて、北関東が一番低いです。

barplot関数で棒グラフにもしてみます。

f:id:cross_hyou:20200125103948p:plain

f:id:cross_hyou:20200125104017p:plain

sort関数を使ってからbarplot関数で棒グラフにしました。

それでは、aov関数でANOVA分析を開始します。

f:id:cross_hyou:20200125104319p:plain

summary.lm関数でモデルの結果を表示しています。p-valueは2.2e-16よりも小さいです。地域によって景気ウォッチャー調査(現状)には有意な違いがあります。

中国の係数が、-3.6968で北陸の係数が、-3.7111です。この二つの地域の差は、とStd. Errorの0.7193と比べて差が、0.0143とStd. Errorの、0.7193よりもとても小さいです。この2つの地域を統合します。

f:id:cross_hyou:20200125104958p:plain

この新しく作成した、Raという名前のファクタでANOVA分析をします。

f:id:cross_hyou:20200125105141p:plain

anova関数でmodel1とmodel2を比較しています。Pr(>F)が0.9841と0.05よりも大きいので、model1とmodel2は有意な違いはありません。model2を見てみます。

f:id:cross_hyou:20200125105359p:plain

中国と北陸が、-3.7039で北海道が、-3.7514ですので統合しましょう。

f:id:cross_hyou:20200125105703p:plain

新しく作成した、RbでANOVA分析をします。

f:id:cross_hyou:20200125105852p:plain

p値は0.9393ですから、model2とmodel3では有意な違いはありません。

model3を見てみます。

f:id:cross_hyou:20200125110046p:plain

九州が、-4.0194で全国が、-4.0662と近いです。統合しましょう。

f:id:cross_hyou:20200125110327p:plain

この新しく作成した、RcでANOVA分析をします。

f:id:cross_hyou:20200125110454p:plain

p値は0.9482ですので、model3とmodel4に有意な違いはありません。

model4を見てみます。

f:id:cross_hyou:20200125110637p:plain

九州-全国が、-4.4028で南関東が、-4.2551で近いです。統合しましょう。

f:id:cross_hyou:20200125111410p:plain

この新しく作成したRdでANOVA分析をします。

f:id:cross_hyou:20200125111424p:plain

p値は0.7332なのでmodel4とmodel5は有意な違いはありません。

model5を見てみます。

f:id:cross_hyou:20200125111620p:plain

中国-北陸-北海道が、-3.7198で東海が、-3.4116と近いので統合します。

f:id:cross_hyou:20200125112224p:plain

この新しく作成したReでANOVA分析をします。

f:id:cross_hyou:20200125112242p:plain

p値は0.5996なのでmodel5とmodel6に有意な違いはありません。

model6を見てみます。

f:id:cross_hyou:20200125112423p:plain

甲信越が、-5.6130で東北が、-5.8569と近いので統合します。

f:id:cross_hyou:20200125112657p:plain

この新しく作成した、RfでANOVA分析をします。

f:id:cross_hyou:20200125112945p:plain

p値は0.7343ですからmodel6とmodel7で有意な違いはありません。

model7を見てみます。

f:id:cross_hyou:20200125113151p:plain

近畿が、-2.5060で東京都が、-2.1889で近いです。統合します。

f:id:cross_hyou:20200125113420p:plain

この新しく作成した、RgでANOVA分析をします。

f:id:cross_hyou:20200125113555p:plain

p値は0.6591なので、model7とmodel8は有意な違いはありません。

model8を見てみます。

f:id:cross_hyou:20200125113758p:plain

関東が、-4.8644で四国が、-4.5958と近いですね。統合します。

f:id:cross_hyou:20200125114013p:plain

この新しく作成したRhでANOVA分析をします。

f:id:cross_hyou:20200125114146p:plain

p値は0.7087なのでmodel8とmodel9では有意な違いは無いです。

model9を見てみます。

f:id:cross_hyou:20200125114331p:plain

だいぶ煮詰まってきた感じがします。関東-四国が、-4.7301で九州-全国-南関東が、-4.1136と近いです。統合します。

f:id:cross_hyou:20200125114738p:plain

この新しく作成した、RiでANOVA分析をします。

f:id:cross_hyou:20200125114908p:plain

p値は0.1838ですので、model9とmodel10で有意な違いはありません。

model10を見てみます。

f:id:cross_hyou:20200125115128p:plain

関東-四国-九州-全国-南関東が、-4.3602で、中国-北陸-北海道-東海が、-3.6427で近いです。統合します。

f:id:cross_hyou:20200125115622p:plain

長いので、「その他」にしました。この新しく作成したRjでANOVA分析をします。

f:id:cross_hyou:20200125115826p:plain

あ！、p値が0.03538と0.05よりも小さいです。model10とmodel11では有意な違いがあります。model11は地域を統合しすぎですね。model10が最終的なモデルです。もう一度みてみます。

f:id:cross_hyou:20200125120043p:plain

棒グラフにしてみましょう

f:id:cross_hyou:20200125120420p:plain

f:id:cross_hyou:20200125120431p:plain

今回は以上です。