都道府県別のパスポート発行数のデータ分析３ - R言語のvar.test関数とt.test関数で8月と11月のデータの違いを検定する。

の続きです。

データの数が多いので、東京都だけのデータフレームを作ってこれから分析してみます。

f:id:cross_hyou:20201211094957p:plain

prefは必要ないので削除しましょう。

f:id:cross_hyou:20201211095249p:plain

2010年から2017年の8年間のデータです。一番少ない月で3万0833冊、一番多い月で6万9727冊の発行です。

年ごとのデータをグラフであらわしてみます。散布図と箱ひげ図を組み合わせます。

f:id:cross_hyou:20201211100041p:plain

f:id:cross_hyou:20201211100057p:plain

2013年、2014年が発行が少ないですね。

月ごとでも同じようにやってみます。

f:id:cross_hyou:20201211100655p:plain

f:id:cross_hyou:20201211100710p:plain

東京都単独でも8月や7月の発行が多く、11月や12月の発行が少ないことがわかります。

それでは、東京都の8月の発行数と11月の発行数はたまたま違うのか、有意に違うのか調べてみます。

f:id:cross_hyou:20201211101314p:plain

このように、8月のデータのベクトルと11月のデータのベクトルを作成しました。

まず、var.test関数で分散が同じといえるのか、有意に違うのかを確認します。

f:id:cross_hyou:20201211101633p:plain

p-valueが0.9221なので、8月と11月のデータで分散の大きさに有意な違いがあるとは言えません。

分散に違いはありませんので、t.test関数でt検定をして8月と11月のデータの平均値に違いがあると言えるかどうか調べます。

f:id:cross_hyou:20201211103040p:plain

p-value = 9.58e-06と0.05よりも小さいので、8月と11月の平均値は有意に違います。

今回は以上です。

次回は、

です。

第１回目は

です。