今回は新型コロナウィルスの感染数と死者数のデータを使って死亡率を計算してみようと思います。
このレポートに掲載されているデータです。2月27日時点ですね。
こういう中国の都市別のデータと
こういう世界の国別のデータを手入力でExcelに入力して、
こういうCSVファイルにしました。
それでは、read.csv関数でデータを読込みます。
WHOの表では、香港、台湾、マカオも中国の中に含まれていましたが、この3つはCountryの分類をOtherとして中国とは別にしました。
それでは早速全体の死亡率を計算してみます。
Deathの合計 / Caseの合計
で計算できますね。
全体の死者数は、2818人、全体の患者数は、8万2293人なので、全体の死亡率は、3.4%です。
それでは、それぞれの死亡率を計算してみましょう。
マレーシアは感染者数が22人で死亡者数が9人で死亡率が41%と一番高いですね。
日本は、感染者数が186人、死亡者が3人で死亡率は1.7%です。
感染者数が100人以上の都市・国だけにしてみましょう。
感染者が100人以上いる都市・国の中ではイランが一番死亡率が高いです。
イランは感染者は141人、死亡者は27人で死亡率が19%です。
そうだ、死亡率の分布をヒストグラムにしてみましょう。
ほとんどが一番左の範囲になってしまって、これではよくわからないですね。plot関数とsort関数を組み合わせて小さい順に死亡率をプロットしてみます。
多くの都市・国は死亡者は0なので、死亡率は0ですね。
感染者数をX軸、死亡率をY軸にした散布図を描いてみます。
あら、一番右のプロットがあるせいで、よくわからない散布図になってしまいました。
Hubeiの感染者数が6万人以上で突出しているためですね。これを除外して散布図を描いてみます。
4つ死亡率が10%を越えている都市・国がありますがその他は同じような死亡率ですね。
それでは最後にクロス表を作成してカイ二乗検定をしてみましょう。
中国かそれ以外かで二つに分けて、Case-Deathで生存者数を計算して、Deathとクロス表にします。
まず、中国かその他かの生存者数、死亡者数を計算します。
この4つの数字でマトリックスを作ります。
こんな感じです。
それぞれの死亡率を計算してみます。
中国は3.5%でその他は1.9%の死亡率です。この違いは統計的に有意な違いなのかどうか? chisq.test関数でわかります。
p値が3.963e-07と0.05よりも小さいので、中国とその他では、死亡率が有意に違うことがわかりました。
今回は以上です。