社会保障費用統計の分析２ - 全体に対する比率を求める

今回は、社会保障費用統計のデータで、どの種類の費用が多いのか、増えているのか、などを調べてみたいと思います。

まずは、read.csv関数でCSVファイルに保存してあるデータを読込みます。

f:id:cross_hyou:20180904112553j:plain

総額の値で割って100倍してパーセント表示にします。

f:id:cross_hyou:20180904113323j:plain

各コマンドを解説します。

DataP <- Data[ , c(3:11)] / Data$総額 * 100

高齢(3列目)からその他(11列目)のデータを総額で割り、100倍してパーセントを計算しています。

DataP <- round(DataP, 2)

round関数を使って、計算した値を小数点以下2桁にしています。

DataP <- cbind(Data$年度, DataP)

cbind関数を使って、Dataの年度の列とDataPを結合しています。

colnames(DataP)[1] <- "年度"

こうして作成したDataPの1列目の列名(colnames(DataP[1])を"年度"にしています。これをしないと、1列目の列名が、"Data$年度"となります。

summary関数で平均値や中央値、最小値、最大値をみてみましょう。

f:id:cross_hyou:20180904114239j:plain

平均値を見ると、高齢は一番で保険が二番目です。

グラフにしてみましょう。plot関数です。

f:id:cross_hyou:20180904120449j:plain

f:id:cross_hyou:20180904120520j:plain

高齢は上昇して最近は低下気味ですね。遺族は一貫して低下傾向。障害は低下していたのが最近は上昇傾向。保険は低下していたのが最近は横ばい、家族ははじめ低下してそれから上昇傾向。労働は途中から算出されて低下傾向。失業は低下傾向ですが、中ごろに上昇したときがあります。住宅ははじめ上がり、下がって上昇して最近また横ばいから若干の低下。その他ははじめ下がってその後上昇、一回尖った時期があります。

このように各項目でいろいろと動きが違うようです。

どの項目が似ているか、相関マトリックスを作成します。cor関数です。

f:id:cross_hyou:20180904121219j:plain