Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

建設総合統計の分析3 - 月によって発注者の割合に違いはあるか?カイ自乗検定で分析(chisq.test)

前回の分析では、地域によって発注者の割合に違いがあることがわかりました。今回は月によって、具体的には、4月、5月、6月で発注者の割合に違いがあるのかをみてみようと思います。

まずは、データをread.csv関数でR言語に読込ませます。

f:id:cross_hyou:20180821163656j:plain

4月の建設出来高を発注者別に集計します。tapply関数です。

f:id:cross_hyou:20180821164229j:plain

同じようにして、5月、6月の建設出来高を発注者別にまとめます。

f:id:cross_hyou:20180821164641j:plain

こうして作成した、四月、五月、六月の各データをひとまとめにして、マトリックスを作成します。matrix関数です。

f:id:cross_hyou:20180821165106j:plain

このままでは行名、列名がなくてわかりにくいので、行名と列名をつけます。

f:id:cross_hyou:20180821165504j:plain

割合がわからないので、割合の表に直します。prop.table関数です。

f:id:cross_hyou:20180821170039j:plain

この表を見る限りでは、月による発注者の割合に違いは無さそうな感じですね。

カイ自乗検定をしてみます。chisq.test関数です。

f:id:cross_hyou:20180821170258j:plain

p-value < 2.2e-16 < 0.05 ですから、月と発注者に関連性は無いという帰無仮説は棄却されます。調整済み残差を表示して、どこが有意な箇所かみてみましょう。

f:id:cross_hyou:20180821170628j:plain

調整済み残差は、絶対値が1.96以上の箇所が有意だということになります。

プラスのところに着目すると、その他は6月に公団などは4月と5月に、国は5月と6月に市区町村は4月と月に、地方公営企業は5月に、都道府県は4月の比率が高くなります。

ということで、月によって発注者の比率が違うことがわかりました。