www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

東京都の新型コロナ陽性者数のデータ分析1 - R言語でCSVファイルを読み込む。sprtime関数でファクターから日付に変換する。

知人から「日本学術会議ニュース・メール」というのが転送されてきました。

f:id:cross_hyou:20200530173151j:plain

各都道府県データリストのURLが記載されていましたので、アクセスしてみました。

Links to Raw Case Data by Each Prefecture |日本学術会議

f:id:cross_hyou:20200530173403j:plain

このように、東京都の陽性者数のデータもCSVファイルでダウンロードできるようなので、ダウンロードしてみました。

f:id:cross_hyou:20200530173611j:plain

こんなファイルでした。性別や年齢などが記載されています。

これをR言語で読み込んでみます。read.csv関数を使います。

f:id:cross_hyou:20200530175512j:plain

16変数、5217のobservationがあります。2番目の全国地方公共団体コードと3番目の都道府県名は130001がコードで、東京都の1種類しかないので、あってもしょうがないです。削除します。

f:id:cross_hyou:20200530175854j:plain

市町村名や患者_属性などlogiタイプの変数がきになりますね。

summary関数でみてみましょう。

f:id:cross_hyou:20200530180108j:plain

logicalの変数は全部NAですね。これらは削除しましょう。

それと1番目のNoですが最大値が10169って、5217しかデータないのにおかしいですよね。意味なさそうだからこれも削除します。

必要なのは、3, 4, 5, 6, 7, 8と14番目の変数です。

f:id:cross_hyou:20200530180523j:plain

これでだいぶすっきりしました。

公表_年月日がFactorになっていますがこれを日付に変更したいですよね。。どうすればいいのかな?

strptime関数を使うとよさそうです。

f:id:cross_hyou:20200530181155j:plain

西暦/月/日というならびですから、%Y/%m/%dというようにsprtime関数で指定すればいいようです。西暦が4桁でなく、下2桁のときは小文字で%yとするそうです。

class関数でクラスを確認しました。POSIXlt, POSIXtと日付を表すクラスになりました。

今回は以上です。