Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の「医療費の動向」調査のデータ分析4 - R言語のlm関数で回帰分析をする。

 

www.crosshyou.info

の続きです。

今回はR言語のlm関数で回帰分析をしてみます。

2017年の医療費の伸びを2016年と2015年の伸びで回帰分析します。

まず、df_totalの列名が2015年度、2016年度、2017年度と数字がはじめの文字になっているのをrename関数で変更しておきます。

f:id:cross_hyou:20201115085454p:plain

f:id:cross_hyou:20201115085548p:plain

lm関数で回帰分析モデルを作成します。

f:id:cross_hyou:20201115085740p:plain

p-valueは2.44e-08で有意なモデルです。Y2015, Y2016のp値も0.05以下なので有意です。

2017年度の伸び率 = 0.8088 + 0.4122 * 2015年度の伸び率 + 0.4130 * 2016年度の伸び率

というモデル式です。

モデルから得られる予測値と、実際の値の散布図を描いてみます。

f:id:cross_hyou:20201115091931p:plain

まず、pというggplotオブジェクトを作りました。このpにいろいろ加えます。

f:id:cross_hyou:20201115091517p:plain

f:id:cross_hyou:20201115091538p:plain

埼玉県や千葉県は伸び率が高く、秋田県や岩手県、福島県は伸び率が低いですね。

地域区分で色分けした散布図を描いてみます。

f:id:cross_hyou:20201115092127p:plain

f:id:cross_hyou:20201115092140p:plain

東日本と西日本で分類してみます。

f:id:cross_hyou:20201115092435p:plain

f:id:cross_hyou:20201115092455p:plain

東日本と西日本で明確な違いはなさそうです。

日本海側と太平洋側とその他ではどうでしょうか?

f:id:cross_hyou:20201115092732p:plain

f:id:cross_hyou:20201115092748p:plain

これも明確な違いはなさそうです。

今回は以上です。