の続きです。
今回の説明変数はIndus, 業種です。summary関数でどういう業種があるか見てみます。
33種類の業種があります。今回は前回までとは違ったアプローチでANOVAをやってみたいと思います。
いつものように参考図書は、
Statistics: An Introduction Using R
- 作者: Michael J. Crawley
- 出版社/メーカー: Wiley
- 発売日: 2019/12/09
- メディア: ペーパーバック
- この商品を含むブログを見る
です。
aov関数でANOVAのモデルを作成し、summary.lm関数で表示します。
各業種のp値を見ると、電気・ガスが0.875278と一番大きいです。電気・ガスは、はん用機械と一緒にしても大丈夫そうです。
p値が0.8753なのでmodel2でもいいですね。summary.lm関数で確認します。
非製造業が0.6878のp値で一番高いので、これを、はん用機械と統合してmodel3を作りましょう。
p値が0.6878と0.05以上ですから、model2とmodel3に有意な違いはありません。なのでシンプルなほう、model3を採用します。model3を見てみましょう。
運輸・郵便のp値が一番大きいようです。これをはん用機械に統合してmodel4を作成します。
p値が0.4799と0.05よりも大きいので、model3とmodel4に有意な違いはないです。なので、model4を採用してさらに統合できる業種は統合します。
化学のp値が一番大きいので化学をはん用機械に統合したmodel5を作成します。
p値は0.3896と0.05より大きいので、model4とmodel5で有意な違いはあありません。従いまして、よりシンプルなmodel5を採用します。
業務用機械のp値が一番大きいので、これをはん用機械に統合します。
p値は0.3351なのでmodel5とmodel6のふたつに有意な違いはありません。model6を調べます。
窯業・土石製品をはん用機械に統合します。
p値が0.3665なので、model6とmodel7では有意な違いはありません。model7を採用します。
全産業をはん用機械に統合します。
model8を採用します。
生産用機械をはん用機械に統合します。
model9を採用します。
木材・木製品をはん用機械に統合します。
model10を採用します。
卸売をはん用機械に統合します。
model11を採用します。
とうとう、各業種が全部有意になりました。これでモデルの単純化は終わりです。
切片の値は8.6742です。これははん用機械と統合された業種の平均値が8.6742ということですね。物品賃貸は14.7424となっています。これは、8.6742 + 14.7424 = 23.416が物品賃貸の平均値ということですね。tapply関数でたしかめます。
たしかにそうなっていますね。
最後にmodel11のグラフを描いておわります。