Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の企業の土地取得状況等に関する調査のデータ分析5 - 土地取得の企業数の変化率をRのlm()関数で重回帰分析。

Generated by Bing Image Creator: Taken from the ground of a clear, clean stream in Japan Photo.

www.crosshyou.info

の続きです。

前回は、num_chg_pct: 企業数の変化率と area_chg_pct: 面積の変化率の相関係数を調べました。その結果、両者に相関関係があるとは言えないことがわかりました。

今回は、num_chg_pctをarea_chg_pct, num_total_2006年: 2006年の企業数、area_total_2006年: 2006年の面積、の3つの変数で回帰分析してみます。

まず、変数間の相関係数を確認します。corrrパッケージのcorrelate()関数を使ってみましょう。

num_chg_pctは、area_chg_pctとは0.0232, num_total_2006年とは-0.261, area_total_2006年とは-0.165の相関係数です。2006年に企業数や面積が大きいところほどnum_chg_pctが小さくなる傾向があるようです。

一番相関係数の高い組み合わせは、area_chg_pctとnum_total_2006年の0.315です。

num_chg_pctとnum_total_2006年の散布図を見ておきましょう。

area_total_2006年との散布図もみておきましょう。

あら~。これは右端の外れ値の影響が大きくて関係性がよくわからないですね。

num_total_2006年、area_total_2006年は対数変換して回帰分析したほうがいいのかもしれません。

それでは、lm()関数で回帰分析してみます。

summary()関数で結果を見てみます。

一番下のp-valueが0.2267と0.05以上です。これは、area_chg_pct, num_total_2006年、area_total_2006年の3つの変数のモデルはnum_chg_pctを説明するモデルとは言えない、ということです。

こんどは、num_total_2006年とarea_total_2006年を対数変換したモデルを回帰分析してみましょう。

p-valueは0.1456です。対数変換した値を使ったモデルでもnum_chg_pctを上手く説明できないようです。土地取得した企業数の変化は、何か他の要因があるのでしょう。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。