今回は建設総合統計のデータを使って、地域 x 発注者のクロス表を作成して地域によって発注者の割合に違いがあるかを見てみましょう。
まずは、データをread.csv関数で読込みます。
発注者は、その他、公団・独法・政府企業等、国、市区町村、地方公営企業、都道府県の6タイプに分類されます。
地域はどうでしょうか?リストアップします。summary関数を使いました。
近畿、九州、四国、中国、中部、東北、南関東、北海道、北関東、北陸の10地域です。
6 x10 または 10 x 6 のクロス表を作ってカイ自乗検定を行うという作戦です。集計する金額はX30年度計のデータにします。
まずはsubset関数で発注者ごとのデータフレームを作成します。
これで本当に発注者ごとのデータフレームになっているでしょうか?試しにそれぞれのデータフレームを見てみましょう。
このように作成できました。これらを合体させます。cbind関数です。
できました。しかし、列名がかっこ悪いですね。新しく名前をつけなおします。
行名もつけなおしましょう。
地域の列は必要ないので削除します。
これで、地域 x 発注者 のクロス表が作成できました。
金額だと地域ごとの発注者タイプの割合がわからないので、比率のクロス表にします。prop.table関数を使います。
prop.table関数はマトリックスでないとうまく動かないので、as.matrix関数でマトリックスに変換してから使っています。margin=1で行の合計が1になるように指定します。100をかけているので、パーセント表示にしています。round関数で小数点以下2桁までの表示にしています。
この表を見ると、公団等は北陸が40%以上なのに対して、中国では10%以下などと地域によってかなり差があることがわかります。
金額の上位2位の発注者を地域別に書くと、
北海道は、国と市区町村
東北は、都道府県と国
北関東は、市区町村と都道府県
北陸は、公団等と都道府県
中部は、公団等と都道府県
近畿は、公団等と市区町村
中国は、都道府県と市区町村
四国は、国と都道府県
九州は、国と都道府県
となっています。
カイ自乗検定をしてこれらの地域差に有意な違いがあるかどうかを調べます。
帰無仮説は、地域と発注者タイプには関連性はない。
対立仮説は、地域と発注者タイプには関連性がある。
となります。
カイ自乗検定はchisq.testです。
p-value < 2.2e-16 < 0.05 なので、帰無仮説は棄却され、対立仮説が採用されます。
つまり、地域と発注者タイプには関連性があるのでした。
調整済み残差を表示して、どの部分が有意なのかをみてみましょう。
調整済み残差は絶対値が1.96以上なら有意ということですが、こうしてみると、北関東の国、中部の都道府県のほかはすべて絶対値で1.96以上ですね。
地域によって建設工事の発注者のタイプによる違いがよくわかりました。