今回も2018年4月の出入国管理統計のデータを使って分析します。入国者数、出国者数をカテゴリカルデータに変換してクロス表を作成してみたいと思います。
read.csv関数でcsvファイルのデータをR言語で読込み、summary関数でデータのサマリーを表示し、subset関数で人数が0の行を削除して再度summary関数を使いました。
人数は最小値は1、最大値は85万9472人です。
カテゴリーの区分として、1人から10人、11人から100人、101人から1000人、1001人から10000人、10001人以上、の5つのカテゴリにわけましょう。数値データをカテゴリデータに変換するには、cut関数を使います。
breakesという変数でデータの区切りを設定し、labelsという変数で区切りの名前を設定し、cut関数で人数データをカテゴリデータに変換しています。
それでは、クロス表を作成しましょう。
まずは、空港か港 x カテ人数 です。
空港は極大が多く、港は極小が多いですね。カイ自乗検定をしてみます。
p-value = 2.2e-16 < 0.05 ですから、帰無仮説「空港か港か と カテ人数には関連性はない」が棄却されました。つまり、空港か港かと人数には関連があります。
調整済み残差を見てみます。検定結果に$stdresを加えると表示されます。
調整済み残差は絶対値で2以上の組み合わせが有意なところですから、プラスのところだけに注目すると、港は極小が多く、空港は大と極大が有意に大きいことがわかります。
続いて、出国・入国とカテ人数のクロス表を作成しましょう。
どうでしょうか・・・出国と入国ではそれほど違いがない感じです。カイ自乗検定をしてみます。chisq.test関数です。
p-value = 0.8169 > 0.05 ですから、帰無仮説「出国・入国と人数に関連性はない」を棄却できませんでした。
最後に、国籍とカテ人数のクロス表を作成します。
どうでしょう。。外国人は極小や極大が多く、日本人は中が多いようです。カイ自乗検定でこの傾向が有意なのかどうか検定してみます。
p-value = 1.41e-05 < 0.05 ですから、帰無仮説「国籍と人数には関連性は無い」を棄却できました。つまり、日本人と外国人では利用する港・空港の規模に違いがあるということです。調整済み残差を表示して、どの部分に違いがあるかを見てみましょう。
日本人は、小、中が多く、外国人は大が多いことがわかります。
小、中は11人から1000人、大は1001人から10000人の範囲です。