の続きです。
今回は、老人福祉費 / 児童福祉費 という比率を計算してみます。
まず、老人福祉費と児童福祉が同じ都道府県の順番で並んでいるか確認します。
== で同じかどうかをテストしました。すべてTRUEなので同じですね。sumでTRUEの数を数えると、47ですから47都道府県すべて同じ順番です。
それでは比率を計算します。
沖縄県は比率が1.0以下ですから老人福祉費よりも児童福祉費のほうが多いのですね。その他の都道府県はすべて比率は1.0以上です。新潟県が3.27で一番高い比率です。
summary関数で平均値や中央値を調べます。
中央値は2.1780、平均値は2.1671です。老人福祉費が児童福祉費の2倍強というのが平均ですね。
3つのグラフを描いてみます。
山型の分布です。
それでは、この老人福祉費 / 児童福祉費, OldChildをavgPop, avgArea, avgGDPの3つの変数で重回帰分析をしてみましょう。
まずは、一番複雑なモデルからスタートします。
p-valueが0.1715と0.05よりも大きいですから、このモデルは有意ではないということです。老人福祉費 / 児童福祉費 は人口、面積、県内総生産では説明がつかないということですね。一応、step関数でモデルを単純化してみます。
以下省略して、summaryを表示します。
avgPop:avgGDPのp値は0.0866ですから不要かもですね。確認します。
Pr(>F)の値が0.08664と0.05よりも大きいですから、model3を採用します。
p-valueは0.04536と0.05より小さいので有意なモデルです。avgPopはいらなさそうです。
model3とmodel4に有意な差は無いです。model4を採用します。
p-valueは0.03841と0.05より小さいので有意なモデルです。avgGDPもいらなさそうですね。
p値は0.4378と0.05よりも大きいので、model5を採用します。
p-valueは0.01448と0.05よりも小さいので有意なモデルです。このmodel5はavgAreaが変数の単回帰モデルですね。I(avgArea^2)を追加してみます。
p値が0.1762と0.05よりも大きいので、I(avgArea^2)を追加しても意味ないということですね。model5が最終的なモデルです。
散布図と回帰直線を描きます。
散布図の一番右のプロット、北海道が大きく影響しているようですね。
北海道を除外したら結果はまた変わるかもしれません。もしくは対数値の人口、面積、県内総生産で回帰分析したら結果はかわるかもしれないですね。
今回は以上です。