の続きです。
sales: 1企業当りの売上高【千円】のヒストグラムを描いてみます。
ggplot2パッケージを使って、ggplot関数とgeom_histogram関数を使います。
binwdth = 1000 として百万円ごとの度数です。
facet_grid関数を追加して、2019年と2020年、別々のヒストグラムを描いてみます。
年による違いは無いようですね。
var.test関数で年による分散に違いはないのかどうかを確認します。
sales_2019, sales_2020という名前で、2019年のtotalのsalesのデータ、2020年のtotalのsalesのデータを格納して、va.test関数で検定しています。95%信頼区間の分散の比率が0.49から1.58と1をまたいでいますので、両者に分散の違いがあるとは言えないです。
t.test検定で両者の平均値に違いがあるかどうかを検定します。t検定ですね。
p-valueが0.8343と0.05よりも大きいです。95%信頼区間の両者の差も-604から747と0をまたいでいますので、2つの年の平均値に違いがあるとは言えないです。
2019年のほうの平均値が1293万2千円、2020年のほうが1286万1千円です。2020年のほうが売上が落ちていますね。
同じ都道府県でのsalesを比較してみましょう。
arrange関数で都道府県の順番を揃えてからsales_2019, sales_2020にsalesの値を格納しています。2つの差をdifferenceという名前の変数に格納して、t.test検定をしています。p-valueが0.28と0.05よりも大きく、95%信頼区間は-203から60.3と0をまたいでいますので、differenceの平均値が0とは言えません。
同じように、total以外の業種でもsalesを調べてみましょう。
total以外の個々の業種では、分布の形状が右側の裾野が広い形状ですね。
2019年、2020年とわけてみてみます。
個々の業種でも年による違いはなさそうですね。
確認してみましょう。
var.test関数の結果、p-valueは0.9106なので、分散に違があるとはいえません。
t.test関数で平均値の違いをみます。今回はあらかじめarrange(pref)で都道府県の順番を揃えていますので、paired = TRUEを加えてt.test関数を実行します。
95%信頼区間が-54から199と0をまたいでいますので、2019年と2020年で平均値に違いがあるとは言えないです。
今回は以上です。
次回は
です。
はじめから読むには、
です。