crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の国民医療費の分析2 - R言語のlm関数で回帰分析。一人当り医療費と一人当り県内総生産の関係を調べる。

 

www.crosshyou.info

 の続きです。

前回は埼玉県、千葉県、神奈川県は一人当り医療費が少なく、高知県、長崎県、鹿児島県は一人当り医療費が多いことがわかりました。

今回は、一人当り医療費と一人当り県内総生産との関係を調べてみます。

まず、一人当り県内総生産を計算します。

f:id:cross_hyou:20190814192519j:plain

summary関数で平均値を調べると、372万6251円です。

次に、複数年度ある一人当り医療費、一人当り県内総生産の都道府県ごとに平均値を計算します。tapply関数を使います。

f:id:cross_hyou:20190814193035j:plain

plot関数で散布図を見てみます。

f:id:cross_hyou:20190814193235j:plain

f:id:cross_hyou:20190814193249j:plain

右端にポツンと一つはぐれプロットがありますね。一人当り県内総生産が突出して高い都道府県があるのですね。sort関数で並び替えて確認します。

f:id:cross_hyou:20190814193525j:plain

東京都が突出して一人当り県内総生産が大きいですね。

東京都を削除して散布図を描いてみます。

f:id:cross_hyou:20190814193853j:plain

f:id:cross_hyou:20190814193905j:plain

散布図はまんべんなく散らばっている感じですね。なんとなく、一人当り県内総生産が大きいほど、一人当り医療費は小さい感じですね。回帰分析をしてみます。

まずは、東京都を除外した変数を用意します。

f:id:cross_hyou:20190814194409j:plain

length関数でデータの観測数を確認しています。46なので一つ、東京都が除外されていることがわかります。

lm関数で回帰分析をします。

f:id:cross_hyou:20190814194649j:plain

p-valueは0.02855なので0.05よりも小さいですから有意なモデルです。

といってもR-squaredが0.1043ですから、説明力は10%ぐらいしかないです。

avgHGDP2の係数の符号はマイナスですから、やはり一人当り県内総生産が大きいほうが一人当り医療費は少ない、という関係です。

一人当り県内総生産が大きいということは、一人ひとりの生産額が大きい、つまり病気でない、つまり医療費は少ない、ということでしょうかね。

残差のグラフを描いてみます。

f:id:cross_hyou:20190814195259j:plain

f:id:cross_hyou:20190814195317j:plain

最後に散布図を回帰直線を重ねて描いてみます。

f:id:cross_hyou:20190814195619j:plain

f:id:cross_hyou:20190814195636j:plain

今回は以上です。