Photo by Tanya Grypachevskaya on Unsplash
の続きです。
まず、R言語のgroup_by()関数とsummarize()関数を使って、年ごとの平均値を計算してみます。
2002年、2005年、2008年、2011年、2014年と3年ごとに5年間ぶんのデータがあったのですね。
それぞれの変数の推移をグラフにしてみます。
ggplot2パッケージのggplot()関数とgeom_line()関数で折れ線グラフを作っておいて、gridExpandパッケージを読み込んで、grid.arrange()関数で4つのグラフをひとつにして表示しました。
病床利用率と人口密度は右肩下がり、所得は2008年に(おそらくリーマンショックの影響)落ち込みましたが、右肩上がり、医療費も右肩上がりです。
続いて、group_by()関数とsummarize()関数で都道府県別の平均値のデータフレームを作ります。
この都道府県別の平均値のデータフレームを利用して、散布図マトリックスを描いてみます。pairs()関数を使いました。
病床利用率と他の変数との散布図は一番上の列です。
人口密度とは無相関、所得とは弱い負の相関、医療費とは弱い正の相関といったところでしょうか?
cor()関数で相関係数マトリックスをみてみます。
病床利用率と人口密度の対数値の相関は-0.029,
病床利用率と1人当たり県民所得の対数値の相関は-0.222,
病床利用率と1人当たり医療費の対数値の相関は0.544です。
一番相関係数(絶対値ベース)の大きい組み合わせは、人口密度と1人当たり県民所得の対数値ですね、0.639です。
今回は以上です。
次回は
です。
はじめから読むには
です。