の続きです。
2015年度、2016年度、2017年度でtotal: 総計の分布が違っていることがわかりました。
それぞれ年度の平均値や標準偏差、変動係数を計算してみます。
group_by関数を使い、年度でグループ分けをしてからmean関数やsd関数を使います。
2015年度は平均で3.49%の伸び、2016年度は平均で-0.794%の減少、2017年度は平均で1.91%の伸びでした。
それぞれの年度のデータの相関関係を調べましょう。
まず、spread関数で各年度ごとデータを変数にしたデータフレームを作ります。
select関数で必要な変数だけにしました。
spread関数で各年度ごとのデータを変数にします。このspread関数がいまだによくわかりません。自分なりにまとめると、
key = が新しく列となる要素が入っている変数、今回は、2015年度、2016年度、2017年度という列を作りたいのですから、これらが格納されているyearをkeyにします。
value = が新しく列となるところに格納するデータの変数です。今回は2015年度の総計、2016年度の総計、2017年度の総計、とtotalを格納しますからvalue = totalとします。
相関係数を調べるのと散布図マトリックスを作図するのを同時にやろうと思いますので、GGallyパッケージを読み込みます。
GGallyパッケージの中のggpairs関数で散布図マトリックスと相関係数を同時に作成します。
それぞれの年度どうしの相関は0.6前後で正の相関ですね。
つまり、前年の伸びが大きい都道府県は翌年も伸びが大きい傾向があり、伸びが小さい都道府県は翌年も伸びが小さいという傾向があるということですね。
今回は以上です。