の続きです。
前回作成したデータフレーム、df0108: 2008年と2001年の差分のデータを使って分析していきます。
diff_goraku: 消費者物価指数・教養娯楽のデータの変化幅の大きいところ、小さいところはどこでしょうか?R言語のarrange関数でデータフレームを並び替えましょう。
山口県が-15.1で一番下落していました。長崎県、青森県、栃木県と続きます。
diff_gorakuは全ての都道府県でマイナスですが、山形県が一番下落幅が小さいです。
兵庫県、千葉県、東京都と続きます。
plot関数で散布図マトリックスを作成して変数同士の関係をみてみましょう。
一番上の列が縦軸がdiff_gorakuの散布図です。どの変数ともあまり関連はしていないように見えますね。
cor関数で相関マトリックスを作成してみます。
diff_gorakuと一番相関の強いのはdiff_popですね。でも0.315なのでそれほど強い相関ではないですね。
全体ではdiff_gdpとdiff_popが一番相関が強く、0.678です。
lm関数で回帰分析をしてみます。
p-valueが0.2701と0.05よりも大きいので有意な統計モデルではないです。
step関数で不要な説明変数を削除します。
p-valueが0.05461とlm_model1よりは小さくなりましたが、それでも0.05よりも大きいですね。big3も削除しましょう。
diff_gdpも削除します。
p-valueが0.03086と0.05よりも小さいので有意な統計モデルです。
diff_gorakuとdiff_popの散布図を描きます。
う~ん。全然あてはまってない感じですね。
消費者物価指数・教養娯楽の変化幅は何が影響しているのでしょうね?
今回は以上です。
次回は
です。
はじめから読むには、
です。