都道府県別の世帯土地統計のデータの分析６ - Rで回帰分析。所得の大きいところほど土地の所有世帯数は多い。

の続きです。前回は２つの変数どうしの相関係数を調べて、信頼区間をcor.test()関数とブートストラップ法で算出しました。

今回は、回帰分析をしてみようと思います。

回帰分析の非説明変数は、l_shoyuで、説明変数はshotoku、コントロール変数として、setaiとtokyoを加えてみます。

まず、回帰分析用のデータフレームを上のようにして用意しました。setaiは、1人、2人、3人、4人、5人以上、総数と6種類ありますが、総数は、1人から5人以上の合計なのでfilter()関数で削除しました。そして、select()関数で必要な変数だけにしました。

Rのlm()関数で回帰分析をします。lm()関数はsetaiのようなカテゴリカル変数をそのまま処理できますが、今回は敢えてダミー変数を作成しようと思います。

oneは、setai が1人だったら1、そうでなかったら0のダミー変数です。その他のtwo, three, fourも同じ仕組みです。基準を5人以上にしたので、fiveは作りません。

それでは、lm()関数で回帰分析します。

shotokuの係数は、0.0010779です。p値は0に近い値ですので、統計的に有意です。

shotokuが1、つまり1千円増えると、l_shoyuが0.0010779増えます。

l_shoyuはshoyuの自然対数変換値なので、shotokuが1増えると、shoyuは100 * 0.0010779 = 0.10779%増える、ということですね。

tokyoの係数は、-1.4927813なのでshotokuやsetaiの人数が同じだとすると、tokyoだとl_shotokuは-1.4927813も他の都道府県よりも少ない、ということですね。

tokyo以外の都道府県のデータを使って、この回帰分析の結果をグラフにしてみます。

moderndiveパッケージのgeom_parallel_slopes()関数を使います。

世帯人数が2人のところが一番、l_shoyuは大きいです。

このモデルは、世帯の人数によってshotokuのl_shoyuに対する傾きが変わらないモデルでした。

もう一つ、世帯の人数によって傾きが変わるモデルも回帰分析してみます。

shotokuの係数やtokyoの係数はfit1とあまり変わっていないようです。

anova()関数で、fit1とfit2に統計的に有意な違いがあるかどうか確認します。

p値が0.8933と大きな値ですので、fit1とfit2は有意な違いは無いです。

なので、fit1のほうが単純なのでいいですね。

いちおう、model2も視覚化してみましょう。geom_smooth()関数を使います。

こんな感じです。

今回はl_shoyuをshotokuで回帰分析しました。shotokuが増えるほど、l_shoyuは増えます。また、tokyoは他の地域に比べてl_shoyuが小さいです。2人世帯が一番l_shoyuが大きいですね。

今回は以上です。

次回は、

です。

初めから読むには、

です。