Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

出入国管理統計の分析1 - 港と空港で日本人・外国人の比率は違うのか?

今回は、出入国管理統計のデータを見てみたいと思います。

出入国管理統計とは、「法務省で取り扱っている事務のうち,地方入国管理局等で取り扱った入国審査,在留資格審査及び退去強制手続等に関する統計報告を集計したものである。」とのことです。(e-Statのウェブページより)

f:id:cross_hyou:20180625120246j:plain

この月次のデータのエクセルファイルはこのようなものでした。2018年4月のデータです。

f:id:cross_hyou:20180625120419j:plain

このデータファイルを使って港と空港では出国者・入国者、日本人・外国人の比率が違うのか分析してみましょう。まずはR言語に読込ませるように、このようなcsvファイルを作成しました。

f:id:cross_hyou:20180625121858j:plain

R言語にread.csv関数で読込み、summary関数でデータのサマリーを確認します。

f:id:cross_hyou:20180625122630j:plain

空港が61で港が116あることがわかります。入国・出国で比べると日本人も外国人も出国のほうが多かったことがわかります。

4分位の値と平均値を見ると、正規分布していないように感じます。別の分析で検証しようと思います。

それでは、空港・港で区分して出国・入国者の数を見てみたいと思います。

空港だけ、港だけのデータフレームを作成するには、subset関数を使います。

f:id:cross_hyou:20180625125910j:plain

f:id:cross_hyou:20180625130010j:plain

こうして見比べてみると、港から入国・出国する人はかなり少ないですね。

それでは、それぞれの合計値を求めます。colSum関数を使います。

1列目(地名)と2列目(空港か港)は、数値データではないので、[ , c(-1,-2)]と入力して計算から削除します。

f:id:cross_hyou:20180625130345j:plain

f:id:cross_hyou:20180625130358j:plain

この結果をもとに、2 x 4 のマトリックスを作成しましょう。

matrix関数です。

f:id:cross_hyou:20180625131421j:plain

このままの状態では比率がわからないので比率で表示してみます。prop.table関数です。

f:id:cross_hyou:20180625131713j:plain

margin=1としているので、行の合計が100%になります。

港から入国・出国していり日本人が少ないことがわかります。

それでは、カイ自乗検定をします。

f:id:cross_hyou:20180625132107j:plain

p-value = 2.2e-16 < 0.05 ですから、帰無仮説「空港・港の区別と入出国の属性は関係ない」は棄却されました。すなわち、空港と港では入出国の属性の比率は異なります。

最後に調整済み残差を見ておきましょう。カイ自乗検定の結果に$stdresを付けると表示できます。

f:id:cross_hyou:20180625132432j:plain

日本人は空港からの入国・出国が多く、外国人は港からの入国・出国が多いということがわかりました。