今回は、建設総合統計分析の前月からの増減を増加・減少のカテゴリカル変数にして、クロス表を作成し、カイ自乗検定をしようと思います。
まずは、csvファイルに保存してあるデータをread.csv関数でR言語に読込みます。
4月から5月の変化と、5月から6月の変化を計算します。
計算結果の変数名を、kensetsu$増減5月、kensetsu$増減6月、ともとのデータフレームである、kensetsuに$マークで追加しているので、増減5月、増減6月もkensetsuのデータフレームに格納されています。
これを0以下を減少、0より大きいを増加というカテゴリカル変数に変換します。
cut関数を使います。
このように、できました。
これを見るとすでに1つクロス表ができています。
5月は減少40、増加20
6月は減少7、増加53です。
5月は減少が多く、月は増加が多いですね。カイ自乗検定をしてみます。マトリックス作成はmatrix関数を使います。
こうして作成した、Matrix1をカイ自乗検定します。
p-value = 2.17e-09 < 0.05 ですから5月と6月で建設出来高の増減に違いはあるということですね。
こんどは、発注者と5月、発注者と6月を見てみましょう。
p-value = 0.0002171 < 0.05 ですから有意な違いがあります。
しかし、クロス表を見ると各度数が小さいのカイ自乗検定は不正確かもしれないですね。こういうときは発注者をまとめてしまいましょう。
減少のほうが少ない公団・独法・政府系企業と国を「国など」にその他のものを「国など以外」にしてクロス表を作ります。
このようになります。
このマトリックスでカイ自乗検定をします。
p-value = 5.345e-06 < 0.05 ですから、発注者の属性によって増加と減少に違いがあることがわかりました。
こんどは6月でやってみましょう。
6月はすべての発注者で増加が多いですね。p-value = 0.2496 > 0.05 ですので、発注者のタイプと増加・減少の割合に関連はないようです。
一応、5月と同じく、公団・独法・政府系企業等と国を「国など」それ以外を「国など以外」に二分して検定してみましょう。
p-value = 0.01412 < 0.05 ですから、国と公団・独法・政府系企業のグループとそれ以外のグループでは減少・増加に違いがあることがわかりました。国などの発注者は5月も6月も増加が多いですね。
最後に、5月と6月のマトリックスを合成したクロス表でカイ自乗検定をしましょう。
p-value = 0.2163 > 0.05 ですから有意ではないです。
国などは、5月も6月も増加が多かったですが、国など以外は5月は減少が多く、6月は増加が多かったので、5月と6月を合計すると相殺することになったためでしょう。
今回の分析は以上です。