crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の「医療費の動向」調査のデータ分析3 - R言語のGGallyパッケージのggpairs関数で散布図マトリックスを作成。

 

www.crosshyou.info

 の続きです。

2015年度、2016年度、2017年度でtotal: 総計の分布が違っていることがわかりました。

それぞれ年度の平均値や標準偏差、変動係数を計算してみます。

group_by関数を使い、年度でグループ分けをしてからmean関数やsd関数を使います。

f:id:cross_hyou:20201114111009p:plain

2015年度は平均で3.49%の伸び、2016年度は平均で-0.794%の減少、2017年度は平均で1.91%の伸びでした。

それぞれの年度のデータの相関関係を調べましょう。

まず、spread関数で各年度ごとデータを変数にしたデータフレームを作ります。

f:id:cross_hyou:20201114111450p:plain

select関数で必要な変数だけにしました。

spread関数で各年度ごとのデータを変数にします。このspread関数がいまだによくわかりません。自分なりにまとめると、

key = が新しく列となる要素が入っている変数、今回は、2015年度、2016年度、2017年度という列を作りたいのですから、これらが格納されているyearをkeyにします。

value = が新しく列となるところに格納するデータの変数です。今回は2015年度の総計、2016年度の総計、2017年度の総計、とtotalを格納しますからvalue = totalとします。

相関係数を調べるのと散布図マトリックスを作図するのを同時にやろうと思いますので、GGallyパッケージを読み込みます。

f:id:cross_hyou:20201114112108p:plain

GGallyパッケージの中のggpairs関数で散布図マトリックスと相関係数を同時に作成します。

f:id:cross_hyou:20201114112402p:plain

f:id:cross_hyou:20201114112418p:plain

それぞれの年度どうしの相関は0.6前後で正の相関ですね。

つまり、前年の伸びが大きい都道府県は翌年も伸びが大きい傾向があり、伸びが小さい都道府県は翌年も伸びが小さいという傾向があるということですね。

今回は以上です。