Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

WHOの新型コロナウィルスのデータの分析1 - R言語で全体の死亡率や国別の死亡率を計算する。

今回は新型コロナウィルスの感染数と死者数のデータを使って死亡率を計算してみようと思います。

f:id:cross_hyou:20200229130558p:plain

https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200227-sitrep-38-covid-19.pdf?sfvrsn=9f98940c_2

このレポートに掲載されているデータです。2月27日時点ですね。

f:id:cross_hyou:20200229130744p:plain

こういう中国の都市別のデータと

f:id:cross_hyou:20200229130807p:plain

こういう世界の国別のデータを手入力でExcelに入力して、

f:id:cross_hyou:20200229130944p:plain

こういうCSVファイルにしました。

それでは、read.csv関数でデータを読込みます。

f:id:cross_hyou:20200229131349p:plain

WHOの表では、香港、台湾、マカオも中国の中に含まれていましたが、この3つはCountryの分類をOtherとして中国とは別にしました。

それでは早速全体の死亡率を計算してみます。

Deathの合計 / Caseの合計

で計算できますね。

f:id:cross_hyou:20200229132006p:plain

全体の死者数は、2818人、全体の患者数は、8万2293人なので、全体の死亡率は、3.4%です。

それでは、それぞれの死亡率を計算してみましょう。

f:id:cross_hyou:20200229132429p:plain

マレーシアは感染者数が22人で死亡者数が9人で死亡率が41%と一番高いですね。

日本は、感染者数が186人、死亡者が3人で死亡率は1.7%です。

感染者数が100人以上の都市・国だけにしてみましょう。

f:id:cross_hyou:20200229133103p:plain

感染者が100人以上いる都市・国の中ではイランが一番死亡率が高いです。

イランは感染者は141人、死亡者は27人で死亡率が19%です。

そうだ、死亡率の分布をヒストグラムにしてみましょう。

f:id:cross_hyou:20200229133706p:plain

f:id:cross_hyou:20200229133715p:plain

ほとんどが一番左の範囲になってしまって、これではよくわからないですね。plot関数とsort関数を組み合わせて小さい順に死亡率をプロットしてみます。

f:id:cross_hyou:20200229134226p:plain

f:id:cross_hyou:20200229134235p:plain

多くの都市・国は死亡者は0なので、死亡率は0ですね。

感染者数をX軸、死亡率をY軸にした散布図を描いてみます。

f:id:cross_hyou:20200229134924p:plain

f:id:cross_hyou:20200229135008p:plain


あら、一番右のプロットがあるせいで、よくわからない散布図になってしまいました。

Hubeiの感染者数が6万人以上で突出しているためですね。これを除外して散布図を描いてみます。

f:id:cross_hyou:20200229135416p:plain

f:id:cross_hyou:20200229135428p:plain

4つ死亡率が10%を越えている都市・国がありますがその他は同じような死亡率ですね。

それでは最後にクロス表を作成してカイ二乗検定をしてみましょう。

中国かそれ以外かで二つに分けて、Case-Deathで生存者数を計算して、Deathとクロス表にします。

まず、中国かその他かの生存者数、死亡者数を計算します。

f:id:cross_hyou:20200229140250p:plain

この4つの数字でマトリックスを作ります。

f:id:cross_hyou:20200229140623p:plain

こんな感じです。

それぞれの死亡率を計算してみます。

f:id:cross_hyou:20200229140907p:plain

中国は3.5%でその他は1.9%の死亡率です。この違いは統計的に有意な違いなのかどうか? chisq.test関数でわかります。

f:id:cross_hyou:20200229141128p:plain

p値が3.963e-07と0.05よりも小さいので、中国とその他では、死亡率が有意に違うことがわかりました。

今回は以上です。