今回は、国籍別在留外国人数のデータを使って、増減幅の上位・下位、増減率の上位・下位で二分したカテゴリカル変数を作成し、クロス表分析をしてみたいと思います。
前回までで、下図のようなR言語のデータフレームを作成しました。
平成26、27、28は国籍別の人数です。幅2627と幅2728は増減幅、率2627と率2728は増減率です。この4項目からカテゴリカル変数を作成します。ifelse関数を使って、中央値以上なら「上位」、中央値よりも小さければ「下位」となるカテゴリカル変数を作成します。
このようになります。table関数で「上位」と「下位」の度数を数えていますが、中央値で二分したので、どちらも19になりますね。
それでは、クロス表を作成しましょう。table関数で作成できます。まずは、地域と幅2627Cです。
アジアは下位が2、上位が13ですね。ちょっと地域が多いので、地域を「アジア」と「アジア以外」の2つにしてみましょう。
これで、data$アジアとdata$幅2627Cのクロス表を作成してみましょう。
アジア以外の地域は下位が多く、アジア地域は上位が多いですね。この傾向は統計的に有意なのか、フィッシャーの正確確率検定で確かめましょう。fisher.test関数です。
p-value = 0.0006288 < 0.05 なので有意ですね。アジア地域の国籍のほうが増減幅が上位の場合が多いといえます。
幅2728Cでも同じ傾向となるかクロス表で確認しましょう。
幅2627Cとまったく同じ度数となりました。こちらも地域と増減幅は関連あり、ということですね。
それでは、率はどうでしょうか?まずは、率2627Cです。table関数です。
増減率でもアジアは上位が多いですね。フィッシャーの正確確率検定で有意かどうか確認します。fisher.test関数です。
p-value = 0.04481 < 0.05 ですから統計的に有意です。アジア地域は増減率上位が多いといえます。
率2728Cとのクロス表はどうでしょうか。
これもアジア地域は上位が10で下位が5と上位が多いですね。フィッシャーの正確確率検定で有意性を検定します。
p-value = 0.1837 > 0.05 ですから有意では無いということですね。アジア地域と増減率の上位・下位に関連がなくても約18%の確率でこういう結果が出るということです。
平成27年よりも平成28年のほうがアジア以外の国籍の増加が目立ったということですね。