www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の食品営業施設処分件数のデータの分析６ - R言語で重回帰分析をしたが、どの説明変数も有意ではなく結局、平均値が一番となった。

データ分析

www.crosshyou.info

の続きです。

前回はper_shobun: 食品営業施設当たりの処分件数をshishutsu: 消費支出で回帰分析しました。

今回はさらに変数を加えて回帰分析をしたいと思います。

はじめに、都道府県ごとの平均値のデータフレームを作りました。

f:id:cross_hyou:20210516085716p:plain

f:id:cross_hyou:20210516085939p:plain

このように、同じ値の行が重複していますので、distinct関数で重複している行を削除します。

f:id:cross_hyou:20210516090411p:plain

もう一度、head関数ではじめの数行を表示します。

f:id:cross_hyou:20210516090549p:plain

都道府県の重複がなくなりましたね。

summary関数でデータフレームの概要をみます。

f:id:cross_hyou:20210516091004p:plain

per_shobunを作ります。

今回は100万施設当たりの処分件数にします。

f:id:cross_hyou:20210516091413p:plain

per_shobunの箱ひげ図をみてみます。

f:id:cross_hyou:20210516091944p:plain

上方に外れ値があります。

散布図マトリックスをみてみましょう。

f:id:cross_hyou:20210516092117p:plain

f:id:cross_hyou:20210516092133p:plain

相関係数マトリックスをみてみます。

f:id:cross_hyou:20210516092235p:plain

pop: 総人口とshisetsu: 食品営業施設数が0.962とかなり高い相関です。

per_shobunをpop, shishutsu, ew, big3の4つの変数で重回帰分析してみます。

f:id:cross_hyou:20210516092623p:plain

回帰分析の式を被説明変数 ~ (説明変数１ + 説明変数２ + 説明変数３)^2とすると、それぞれの説明変数の交差項も自動で作ってくれます。

p-valueが0.5052ということなので、有意なモデルでは無いです。

step関数でいらない変数・交差項を削除します。

f:id:cross_hyou:20210516093218p:plain

p-valueが0.3501なので有意な統計モデルでは無いですね。big3のp値が0.1346と0.05より高いので削除してみます。

f:id:cross_hyou:20210516093608p:plain

update関数でbig3を削除して、anova関数で削除前のlm_model4と削除後のlm_model5を比較しています。p値は0.1346なので有意な違いはありません。

summary関数でみてみます。

f:id:cross_hyou:20210516093908p:plain

p-valueが0.4974なので有意なモデルではないですね。pop:shishutsuを削除してみます。

f:id:cross_hyou:20210516094305p:plain

f:id:cross_hyou:20210516094321p:plain

p-valueが0.6401なので有意なモデルではないです。どんどんp-valueが大きくなっていますね。。pop:ewも削除します。

f:id:cross_hyou:20210516094658p:plain

p-valueは0.7048で有意なモデルではないです。ewを削除します。

f:id:cross_hyou:20210516094931p:plain

p-valueが0.495ですので有意なモデルではないです。

popを削除します。

f:id:cross_hyou:20210516095225p:plain

p-valueは0.3146と0.05よりも大きく有意ではないです。

shishutsuも削除します。つまり切片項だけのモデルです。

f:id:cross_hyou:20210516095608p:plain

p値が5.24e-10と有意になりました。

つまり、per_shobunはpopやshishutsuとは関係なく、平均4519.3ということです。

95%の信頼区間を求めましょう。

f:id:cross_hyou:20210516100250p:plain

別の方法でも求めてみます。

f:id:cross_hyou:20210516101045p:plain

値が少し違うのは、per_shobun_avgが4519.309, sqrt(per_shobun_var/n)が577.0622とより細かい値だからですね。

今回は以上です。

はじめから読むには、

www.crosshyou.info

です。