都道府県別の個人企業経済調査のデータの分析３ - R言語のvar.test関数、t.test関数で2019年と2020年の1企業当りの売上高を比較する。

www.crosshyou.info

の続きです。

sales: 1企業当りの売上高【千円】のヒストグラムを描いてみます。

ggplot2パッケージを使って、ggplot関数とgeom_histogram関数を使います。

f:id:cross_hyou:20210314091437p:plain

f:id:cross_hyou:20210314091501p:plain

binwdth = 1000 として百万円ごとの度数です。

facet_grid関数を追加して、2019年と2020年、別々のヒストグラムを描いてみます。

f:id:cross_hyou:20210314091721p:plain

f:id:cross_hyou:20210314091737p:plain

年による違いは無いようですね。

var.test関数で年による分散に違いはないのかどうかを確認します。

f:id:cross_hyou:20210314091922p:plain

sales_2019, sales_2020という名前で、2019年のtotalのsalesのデータ、2020年のtotalのsalesのデータを格納して、va.test関数で検定しています。95%信頼区間の分散の比率が0.49から1.58と1をまたいでいますので、両者に分散の違いがあるとは言えないです。

t.test検定で両者の平均値に違いがあるかどうかを検定します。t検定ですね。

f:id:cross_hyou:20210314092338p:plain

p-valueが0.8343と0.05よりも大きいです。95%信頼区間の両者の差も-604から747と0をまたいでいますので、２つの年の平均値に違いがあるとは言えないです。

2019年のほうの平均値が1293万2千円、2020年のほうが1286万1千円です。2020年のほうが売上が落ちていますね。

同じ都道府県でのsalesを比較してみましょう。

f:id:cross_hyou:20210314093437p:plain

arrange関数で都道府県の順番を揃えてからsales_2019, sales_2020にsalesの値を格納しています。２つの差をdifferenceという名前の変数に格納して、t.test検定をしています。p-valueが0.28と0.05よりも大きく、95%信頼区間は-203から60.3と0をまたいでいますので、differenceの平均値が0とは言えません。

同じように、total以外の業種でもsalesを調べてみましょう。

f:id:cross_hyou:20210314094008p:plain