いつものように、e-Stat(政府統計の総合窓口)のサイトを見たら、医療給付実態調査というデータが新着でありました。
どんな調査なのでしょうか?クリックしてみました。
医療保険加入者の受信状況のデータを制度別、年齢別、疾病分類別等様々な切り口から観察したもののようです。
さらにクリックしてみました。
いろいろとEXCELファイルがあるようです。4番の分析表を開いてみました。
こんな感じのファイルでした。この2016年度のデータと2011年度のデータを整理して、下のようなcvsファイルを作成しました。このデータをR言語で分析してみましょう。分析というか、そのまねごとですね。
read.csv関数で読み込み、summary関数を使います。
summary関数では標準偏差は計算されませんので、apply関数とsd関数を使って、標準偏差を計算します。
round関数を使って、小数点2桁までの表示にしています。
このデータフレームは、2011年度と2016年度の2つの年度のデータですから、それぞれの年度別の基本統計量も算出しましょう。
median(中央値)とmean(平均値)を見ると、医療費類や新規入院件数は2016年度のほうが増えていますが、平均在院日数は2016年度のほうが減っていいます。
標準偏差も計算しておきましょう。
今回の分析では、summary関数で最小値、第1分位値、中央値、平均値、第3分位値、最大値を算出し、apply関数とsd関数の組合せで標準偏差を算出しました。
2011年度と2016年度の区別は、iryou[iryou$年度 == 2011, ]、iryou[iryou$年度 == 2018, ]のようにして区別しました。