UnsplashのJoseph Chanが撮影した写真
の続きです。
前回は、CSVファイルのデータをRのread_csv()関数で読み込み、summary()関数で平均値などの統計値を見ました。
1999年から病院の数は減り続けていることがわかりました。
そして、病院の減り方は、もともとの病院の数と関係あるのか?人口10万人当たりの病院数は病院の数と関係あるのか?という2つの疑問が浮かびました。
これらの疑問を解明していきましょう。
まず、必要なデータを揃えたデータフレームを作ります。
select()関数やmutate()関数を使います。
select()関数で必要な変数だけを抜き出しました。そして、mutate()関数で、2019年の病院数から1999年の病院数を引き算して病院数の変化の変数を作りました。さらに、変化率も計算しました。
summary()関数でみてみましょう。
chgが変化幅で、pctが変化率です。どちらも平均値はマイナスですが、最大値はプラスなので、病院数が増えている都道府県もあることがわかります。
グラフにしてみます。
奈良県、兵庫県、山梨県の3県は病院が増えています。北海道が一番、病院が減っている。
mutate()関数の中でreorder()関数をつかって、都道府県をchgの順に並び替えています。
ggplot()とgeom_col()関数で棒グラフを作り、coord_flip()関数で、X軸とY軸を反転させました。
同じように、変化率もグラフにしてみましょう。
病院の数では北海道が一番減っていましたが、率で言えば福井県が一番ですね。3割近くも減少していますから、県民の体感としては、かなり病院減ったと感じられるのではないでしょうか?
それでは、もともとの病院の数と関係があるかどうか、散布図をみてみます。
散布図はggplot() と geom_point()関数で描きます。右肩下がりの関係性がわかります。
pctも同じようにして、散布図を描きます。
変化率は、もともとの病院数と関係がないように見えます。
cor.test()関数で、2つの変数に相関関係があるかどうかを検定できますので、確かめてみましょう。
y1999とchgの相関関係は、-0.725で負の相関です。95%信頼区間は-0.838 ~ -0.553と0を含んでいません。t値は-7.06、p値はほとんどゼロです。
もともとの病院の数と病院の数の変化幅は関連性が無い、といは言えないです。
変化率はどうでしょうか?
y1999とpctの相関係数は0.072です。95%信頼区間は、-0.220 ~ 0.352 と0を含んでいます。t値は0.485、p値は0.63です。もともとの病院の数と病院の数の変化幅は関係が無い、という帰無仮説を棄却できません。
病院の数の変化率はもともとの病院の数と関係が無いようです。
今回は以上です。
次回は、
です。
初めから読むには、
です。