crosshyou

主にクロス表(分割表)分析をしようかなと思います。

社会保障費用統計の分析1 - 基本統計量(summary関数, apply関数とsd関数,)

いつものように、e-Stat(政府統計の総合窓口)を訪問したら、社会保障費用統計というデータが新着でありました。

f:id:cross_hyou:20180901143406j:plain

どんなデータでしょうか?

クリックしてみました。

f:id:cross_hyou:20180901143429j:plain

社会保障費用統計は、国立社会保障・人口問題研究所が、年金、医療保険介護保険雇用保険生活保護子育て支援など、社会保障制度に関する1年間の収支を、OECD(経済協力開発機構)基準による「社会支出」とILO(国際労働機関)基準による「社会保障給付費」の2通りで毎年集計し、公表しているものです。

 社会保障費用統計は、社会保障政策、財政政策等を検討する上での基礎資料として、また、社会保障費用の諸外国との比較を行うための重要な指標として、広く活用されています。

 とのことです。クリックして実際のデータを見てみましょう。

f:id:cross_hyou:20180901143842j:plain

年度次のデータですね。クリックします。

f:id:cross_hyou:20180901143913j:plain

時系列表の第1表「政策分野別社会支出の推移」をクリックしてみました。

f:id:cross_hyou:20180901143952j:plain

こういう形式のファイルでした。億円単位の金額データです。

R言語に読込ませるように、下のようなCSVファイルに加工しました。

f:id:cross_hyou:20180901145054j:plain

このデータをread.csv関数でR言語に読み込んで、分析をしようと思います。

f:id:cross_hyou:20180901145454j:plain

平均値を見てみると、

総額:74兆3155億円

高齢:32兆4284億円

遺族:05兆2819億円

障害:03兆8818億円

保険:26兆4181億円

家族:03兆0732億円

労働:00兆8633億円

失業:01兆7274億円

住宅:00兆2573億円

その他:00兆8841億円

です。高齢と保険で大半を占めることがわかります。

summary関数は標準偏差が出ないので、apply関数とsd関数を使って標準偏差も出します。

f:id:cross_hyou:20180901150334j:plain

標準偏差を平均値で割り算をして変動係数も算出します。これで、どの項目が変動が大きいかわかります。

f:id:cross_hyou:20180901150621j:plain

住宅や労働分野は変動が大きいですね。遺族は変動が小さいです。