出入国管理統計の分析５ - 人数をカテゴリカルデータに変換してクロス表分析

今回も2018年4月の出入国管理統計のデータを使って分析します。入国者数、出国者数をカテゴリカルデータに変換してクロス表を作成してみたいと思います。

read.csv関数でcsvファイルのデータをR言語で読込み、summary関数でデータのサマリーを表示し、subset関数で人数が0の行を削除して再度summary関数を使いました。

f:id:cross_hyou:20180630130832j:plain

人数は最小値は1、最大値は85万9472人です。

カテゴリーの区分として、1人から10人、11人から100人、101人から1000人、1001人から10000人、10001人以上、の5つのカテゴリにわけましょう。数値データをカテゴリデータに変換するには、cut関数を使います。

f:id:cross_hyou:20180630133121j:plain

breakesという変数でデータの区切りを設定し、labelsという変数で区切りの名前を設定し、cut関数で人数データをカテゴリデータに変換しています。

それでは、クロス表を作成しましょう。

まずは、空港か港 x カテ人数　です。

f:id:cross_hyou:20180630133529j:plain

空港は極大が多く、港は極小が多いですね。カイ自乗検定をしてみます。

f:id:cross_hyou:20180630133717j:plain

p-value = 2.2e-16 < 0.05 ですから、帰無仮説「空港か港か　と　カテ人数には関連性はない」が棄却されました。つまり、空港か港かと人数には関連があります。

調整済み残差を見てみます。検定結果に$stdresを加えると表示されます。

f:id:cross_hyou:20180630134036j:plain

調整済み残差は絶対値で2以上の組み合わせが有意なところですから、プラスのところだけに注目すると、港は極小が多く、空港は大と極大が有意に大きいことがわかります。

続いて、出国・入国とカテ人数のクロス表を作成しましょう。

f:id:cross_hyou:20180630134525j:plain

どうでしょうか・・・出国と入国ではそれほど違いがない感じです。カイ自乗検定をしてみます。chisq.test関数です。

f:id:cross_hyou:20180630134754j:plain

p-value = 0.8169 > 0.05 ですから、帰無仮説「出国・入国と人数に関連性はない」を棄却できませんでした。

最後に、国籍とカテ人数のクロス表を作成します。

f:id:cross_hyou:20180630135055j:plain

どうでしょう。。外国人は極小や極大が多く、日本人は中が多いようです。カイ自乗検定でこの傾向が有意なのかどうか検定してみます。

f:id:cross_hyou:20180630135315j:plain

p-value = 1.41e-05 < 0.05 ですから、帰無仮説「国籍と人数には関連性は無い」を棄却できました。つまり、日本人と外国人では利用する港・空港の規模に違いがあるということです。調整済み残差を表示して、どの部分に違いがあるかを見てみましょう。

f:id:cross_hyou:20180630135653j:plain

日本人は、小、中が多く、外国人は大が多いことがわかります。

小、中は11人から1000人、大は1001人から10000人の範囲です。

Rで何かをしたり、読書をするブログ