今回は、社会保障費用統計のデータで、どの種類の費用が多いのか、増えているのか、などを調べてみたいと思います。
まずは、read.csv関数でCSVファイルに保存してあるデータを読込みます。
総額の値で割って100倍してパーセント表示にします。
各コマンドを解説します。
DataP <- Data[ , c(3:11)] / Data$総額 * 100
高齢(3列目)からその他(11列目)のデータを総額で割り、100倍してパーセントを計算しています。
DataP <- round(DataP, 2)
round関数を使って、計算した値を小数点以下2桁にしています。
DataP <- cbind(Data$年度, DataP)
cbind関数を使って、Dataの年度の列とDataPを結合しています。
colnames(DataP)[1] <- "年度"
こうして作成したDataPの1列目の列名(colnames(DataP[1])を"年度"にしています。これをしないと、1列目の列名が、"Data$年度"となります。
summary関数で平均値や中央値、最小値、最大値をみてみましょう。
平均値を見ると、高齢は一番で保険が二番目です。
グラフにしてみましょう。plot関数です。
高齢は上昇して最近は低下気味ですね。遺族は一貫して低下傾向。障害は低下していたのが最近は上昇傾向。保険は低下していたのが最近は横ばい、家族ははじめ低下してそれから上昇傾向。労働は途中から算出されて低下傾向。失業は低下傾向ですが、中ごろに上昇したときがあります。住宅ははじめ上がり、下がって上昇して最近また横ばいから若干の低下。その他ははじめ下がってその後上昇、一回尖った時期があります。
このように各項目でいろいろと動きが違うようです。
どの項目が似ているか、相関マトリックスを作成します。cor関数です。
高齢は遺族、障害、保健、失業などとは逆相関で、住宅とは順相関ですね。
高齢について相関の低い順に並び替えて表示してみましょう。
横方向で見てください。高齢と保険は-0.98、高齢と障害は-0.94などとなります。