Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

社会保障費用統計の分析2 - 全体に対する比率を求める

今回は、社会保障費用統計のデータで、どの種類の費用が多いのか、増えているのか、などを調べてみたいと思います。

まずは、read.csv関数でCSVファイルに保存してあるデータを読込みます。

f:id:cross_hyou:20180904112553j:plain

総額の値で割って100倍してパーセント表示にします。

f:id:cross_hyou:20180904113323j:plain

各コマンドを解説します。

DataP <- Data[ , c(3:11)] / Data$総額 * 100

高齢(3列目)からその他(11列目)のデータを総額で割り、100倍してパーセントを計算しています。

 

DataP <- round(DataP, 2)

round関数を使って、計算した値を小数点以下2桁にしています。

 

DataP <- cbind(Data$年度, DataP)

cbind関数を使って、Dataの年度の列とDataPを結合しています。

 

colnames(DataP)[1] <- "年度"

こうして作成したDataPの1列目の列名(colnames(DataP[1])を"年度"にしています。これをしないと、1列目の列名が、"Data$年度"となります。

summary関数で平均値や中央値、最小値、最大値をみてみましょう。

f:id:cross_hyou:20180904114239j:plain

平均値を見ると、高齢は一番で保険が二番目です。

グラフにしてみましょう。plot関数です。

f:id:cross_hyou:20180904120449j:plain

f:id:cross_hyou:20180904120520j:plain

高齢は上昇して最近は低下気味ですね。遺族は一貫して低下傾向。障害は低下していたのが最近は上昇傾向。保険は低下していたのが最近は横ばい、家族ははじめ低下してそれから上昇傾向。労働は途中から算出されて低下傾向。失業は低下傾向ですが、中ごろに上昇したときがあります。住宅ははじめ上がり、下がって上昇して最近また横ばいから若干の低下。その他ははじめ下がってその後上昇、一回尖った時期があります。

このように各項目でいろいろと動きが違うようです。

どの項目が似ているか、相関マトリックスを作成します。cor関数です。

f:id:cross_hyou:20180904121219j:plain

高齢は遺族、障害、保健、失業などとは逆相関で、住宅とは順相関ですね。

高齢について相関の低い順に並び替えて表示してみましょう。

f:id:cross_hyou:20180904122052j:plain

横方向で見てください。高齢と保険は-0.98、高齢と障害は-0.94などとなります。