Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の個人企業経済調査のデータの分析3 - R言語のvar.test関数、t.test関数で2019年と2020年の1企業当りの売上高を比較する。

 

www.crosshyou.info

 の続きです。

sales: 1企業当りの売上高【千円】のヒストグラムを描いてみます。

ggplot2パッケージを使って、ggplot関数とgeom_histogram関数を使います。

f:id:cross_hyou:20210314091437p:plain

f:id:cross_hyou:20210314091501p:plain

binwdth = 1000 として百万円ごとの度数です。

facet_grid関数を追加して、2019年と2020年、別々のヒストグラムを描いてみます。

f:id:cross_hyou:20210314091721p:plain

f:id:cross_hyou:20210314091737p:plain

年による違いは無いようですね。

var.test関数で年による分散に違いはないのかどうかを確認します。

f:id:cross_hyou:20210314091922p:plain

sales_2019, sales_2020という名前で、2019年のtotalのsalesのデータ、2020年のtotalのsalesのデータを格納して、va.test関数で検定しています。95%信頼区間の分散の比率が0.49から1.58と1をまたいでいますので、両者に分散の違いがあるとは言えないです。

t.test検定で両者の平均値に違いがあるかどうかを検定します。t検定ですね。

f:id:cross_hyou:20210314092338p:plain

p-valueが0.8343と0.05よりも大きいです。95%信頼区間の両者の差も-604から747と0をまたいでいますので、2つの年の平均値に違いがあるとは言えないです。

2019年のほうの平均値が1293万2千円、2020年のほうが1286万1千円です。2020年のほうが売上が落ちていますね。

同じ都道府県でのsalesを比較してみましょう。

f:id:cross_hyou:20210314093437p:plain

arrange関数で都道府県の順番を揃えてからsales_2019, sales_2020にsalesの値を格納しています。2つの差をdifferenceという名前の変数に格納して、t.test検定をしています。p-valueが0.28と0.05よりも大きく、95%信頼区間は-203から60.3と0をまたいでいますので、differenceの平均値が0とは言えません。

同じように、total以外の業種でもsalesを調べてみましょう。

f:id:cross_hyou:20210314094008p:plain

f:id:cross_hyou:20210314094025p:plain

total以外の個々の業種では、分布の形状が右側の裾野が広い形状ですね。

2019年、2020年とわけてみてみます。

f:id:cross_hyou:20210314094319p:plain

f:id:cross_hyou:20210314094334p:plain

個々の業種でも年による違いはなさそうですね。

確認してみましょう。

f:id:cross_hyou:20210314094552p:plain

var.test関数の結果、p-valueは0.9106なので、分散に違があるとはいえません。

t.test関数で平均値の違いをみます。今回はあらかじめarrange(pref)で都道府県の順番を揃えていますので、paired = TRUEを加えてt.test関数を実行します。

f:id:cross_hyou:20210314094842p:plain

95%信頼区間が-54から199と0をまたいでいますので、2019年と2020年で平均値に違いがあるとは言えないです。

今回は以上です。

次回は

 

www.crosshyou.info

 です。

はじめから読むには、

 

www.crosshyou.info

 です。