今回は、通信・放送産業動態調査のデータを使って、1月から6月までの上半期と7月から12月までの下半期で前年同月比の売上成長率に違いがあるのかを調べてみたいと思います。前回のブログで、上半期・下半期のカテゴリカル変数と、マイナス成長・プラス成長のカテゴリカル変数を作成しましたので、この2つの変数でクロス表を作って、カイ二乗検定をしたいと思います。
クロス表は、table関数で作成し、summary関数でカイ二乗検定をします。
まずは、前回のおさらいで、read.csv関数でデータを読込み、head関数ではじめの6行を表示し、summary関数でデータのサマリを表示しています。
次に、cut関数で数量データをカテゴリカル関数にしています。その際に、right=FALSEとinclude.lowest=TRUEというオプションを加えて、-100以上0未満、0以上100以下という区切りでカテゴリカル変数に変換しています。
それでは、table関数でクロス表を作成しましょう。まずは、全体からです。
table(半期, C全体)とコマンド入力します。
どうでしょうか、上半期はマイナス成長が多く、下半期はプラス成長が多いようにです。それでは、この傾向が有意かどうかをsummary関数を使ってカイ二乗検定してみましょう。
p-value = 0.2433 > 0.05ですから有意とはいえません。上半期はマイナス成長が多く、下半期がプラス成長が多いのは偶然かもしれないです。
続いて、電気通信を調べてみましょう。
全体では、上半期はマイナス成長が39回でプラス成長が33回でしたが、電気通信ではマイナス成長が37回でプラス成長が35回と差が小さくなりました。有意な違いは無いでしょう。一応、カイ二乗検定をします。
p-value = 0.4042 > 0.05 です。有意ではないです。
次は、放送です。
上半期はマイナス成長が多く、下半期はプラス成長が多いです。しかし、有意な違いではなさそうです。summary関数でカイ二乗検定してみましょう。
p-value = 0.2429 > 0.05 ですので、やはり有意ではありませんでした。
続いて、民放です。民放は一番マイナス成長が多いデータでしたがどうでしょうか?
上半期も下半期もマイナス成長のほうが多いですね。
有意かどうか検定します。
p-value = 0.1291 > 0.05 ですので有意ではありませんでした。
ケーブルテレビはどうなるでしょうか?
これは、カイ二乗検定をするまでもなく、有意でないとわかりますね。上半期は20 vs 52で、下半期は19 vs 53と一つしか違いがないですからね。
一応、summary関数で確認します。
p-value = 0.8513 > 0.05 です。
株価指数の変化は上半期・下半期で違いがあるでしょうか?クロス表を見てみましょう。
これも有意性はなさそうですね。カイ二乗検定してみましょう。
p-value = 0.5035 > 0.05 ですから有意ではないです。
以上、上半期・下半期で成長に違いがあるかどうかを調べました。結論は、どのデータも上半期・下半期で違いはない、ということでした。