Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の医療施設調査の病院数のデータ分析2 - Rで棒グラフや散布図を描く。相関関係の検定をcor.test()関数で行う。

UnsplashJoseph Chanが撮影した写真 

www.crosshyou.info

の続きです。

前回は、CSVファイルのデータをRのread_csv()関数で読み込み、summary()関数で平均値などの統計値を見ました。

1999年から病院の数は減り続けていることがわかりました。

そして、病院の減り方は、もともとの病院の数と関係あるのか?人口10万人当たりの病院数は病院の数と関係あるのか?という2つの疑問が浮かびました。

これらの疑問を解明していきましょう。

まず、必要なデータを揃えたデータフレームを作ります。

select()関数やmutate()関数を使います。

select()関数で必要な変数だけを抜き出しました。そして、mutate()関数で、2019年の病院数から1999年の病院数を引き算して病院数の変化の変数を作りました。さらに、変化率も計算しました。

summary()関数でみてみましょう。

chgが変化幅で、pctが変化率です。どちらも平均値はマイナスですが、最大値はプラスなので、病院数が増えている都道府県もあることがわかります。

グラフにしてみます。

奈良県、兵庫県、山梨県の3県は病院が増えています。北海道が一番、病院が減っている。

mutate()関数の中でreorder()関数をつかって、都道府県をchgの順に並び替えています。

ggplot()とgeom_col()関数で棒グラフを作り、coord_flip()関数で、X軸とY軸を反転させました。

同じように、変化率もグラフにしてみましょう。

病院の数では北海道が一番減っていましたが、率で言えば福井県が一番ですね。3割近くも減少していますから、県民の体感としては、かなり病院減ったと感じられるのではないでしょうか?

それでは、もともとの病院の数と関係があるかどうか、散布図をみてみます。

散布図はggplot() と geom_point()関数で描きます。右肩下がりの関係性がわかります。

pctも同じようにして、散布図を描きます。

変化率は、もともとの病院数と関係がないように見えます。

cor.test()関数で、2つの変数に相関関係があるかどうかを検定できますので、確かめてみましょう。

y1999とchgの相関関係は、-0.725で負の相関です。95%信頼区間は-0.838 ~ -0.553と0を含んでいません。t値は-7.06、p値はほとんどゼロです。

もともとの病院の数と病院の数の変化幅は関連性が無い、といは言えないです。

変化率はどうでしょうか?

y1999とpctの相関係数は0.072です。95%信頼区間は、-0.220 ~ 0.352 と0を含んでいます。t値は0.485、p値は0.63です。もともとの病院の数と病院の数の変化幅は関係が無い、という帰無仮説を棄却できません。

病院の数の変化率はもともとの病院の数と関係が無いようです。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。