crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

医療給付実態調査の分析1 - 基本統計量(summary関数, apply関数とsd関数)

いつものように、e-Stat(政府統計の総合窓口)のサイトを見たら、医療給付実態調査というデータが新着でありました。

f:id:cross_hyou:20180730224646j:plain

どんな調査なのでしょうか?クリックしてみました。

f:id:cross_hyou:20180730224819j:plain

医療保険加入者の受信状況のデータを制度別、年齢別、疾病分類別等様々な切り口から観察したもののようです。

さらにクリックしてみました。

f:id:cross_hyou:20180730225129j:plain

いろいろとEXCELファイルがあるようです。4番の分析表を開いてみました。

f:id:cross_hyou:20180730225326j:plain

こんな感じのファイルでした。この2016年度のデータと2011年度のデータを整理して、下のようなcvsファイルを作成しました。このデータをR言語で分析してみましょう。分析というか、そのまねごとですね。

f:id:cross_hyou:20180730225657j:plain

read.csv関数で読み込み、summary関数を使います。

f:id:cross_hyou:20180730230316j:plain

summary関数では標準偏差は計算されませんので、apply関数とsd関数を使って、標準偏差を計算します。

f:id:cross_hyou:20180730230732j:plain

round関数を使って、小数点2桁までの表示にしています。

このデータフレームは、2011年度と2016年度の2つの年度のデータですから、それぞれの年度別の基本統計量も算出しましょう。

f:id:cross_hyou:20180730231203j:plain

f:id:cross_hyou:20180730231430j:plain

median(中央値)とmean(平均値)を見ると、医療費類や新規入院件数は2016年度のほうが増えていますが、平均在院日数は2016年度のほうが減っていいます。

標準偏差も計算しておきましょう。

f:id:cross_hyou:20180730232015j:plain

f:id:cross_hyou:20180730232242j:plain

今回の分析では、summary関数で最小値、第1分位値、中央値、平均値、第3分位値、最大値を算出し、apply関数とsd関数の組合せで標準偏差を算出しました。

2011年度と2016年度の区別は、iryou[iryou$年度 == 2011, ]、iryou[iryou$年度 == 2018, ]のようにして区別しました。