www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

東京都の新型コロナ陽性者数のデータ分析2 - R言語のtable関数を使い各変数で集計する。

 

www.crosshyou.infoの続きです。

今回はR言語のtable関数を使って集計をしてみます。

まずは公表_日付で集計しました。

f:id:cross_hyou:20200531105752j:plain

 数が多いですから、plot関数でグラフにします。

f:id:cross_hyou:20200531110003j:plain

f:id:cross_hyou:20200531110017j:plain

テレビでよく見るようなグラフになりました。

 

曜日で集計してみます。

f:id:cross_hyou:20200531110122j:plain

曜日の順番がバラバラですね。なおします。

f:id:cross_hyou:20200531110224j:plain

再び集計します。

f:id:cross_hyou:20200531110444j:plain

barplot関数でグラフにしてみます。

f:id:cross_hyou:20200531110603j:plain

f:id:cross_hyou:20200531110611j:plain

月曜日が一番少なく、金曜日が一番多いです。

 

居住地で集計してみます。

f:id:cross_hyou:20200531110734j:plain

居住地はほとんどが都内ですね。23区、市までわかったらよかったですが。。

 

年代別で集計します。

f:id:cross_hyou:20200531110919j:plain

100歳以上を90代の次にくるようにして - の1人と不明の7人を合わせます。

f:id:cross_hyou:20200531111030j:plain

再び集計します。

f:id:cross_hyou:20200531111112j:plain

barplot関数でグラフにします。

f:id:cross_hyou:20200531111230j:plain

f:id:cross_hyou:20200531111245j:plain

20代、30代が一番多いです。

 

性別で集計します。

f:id:cross_hyou:20200531111349j:plain

男性のほうが女性より多いです。

 

退院済フラグで集計します。

f:id:cross_hyou:20200531111456j:plain

あれ、1しかないですね、summary関数でみてみます。

f:id:cross_hyou:20200531111544j:plain

NAが617ありました。これを0にしましょう。

f:id:cross_hyou:20200531111629j:plain

再び集計します。

f:id:cross_hyou:20200531111714j:plain

退院済みの人が4600人ということですね。

今回は以上です。

 

東京都の新型コロナ陽性者数のデータ分析1 - R言語でCSVファイルを読み込む。sprtime関数でファクターから日付に変換する。

知人から「日本学術会議ニュース・メール」というのが転送されてきました。

f:id:cross_hyou:20200530173151j:plain

各都道府県データリストのURLが記載されていましたので、アクセスしてみました。

Links to Raw Case Data by Each Prefecture |日本学術会議

f:id:cross_hyou:20200530173403j:plain

このように、東京都の陽性者数のデータもCSVファイルでダウンロードできるようなので、ダウンロードしてみました。

f:id:cross_hyou:20200530173611j:plain

こんなファイルでした。性別や年齢などが記載されています。

これをR言語で読み込んでみます。read.csv関数を使います。

f:id:cross_hyou:20200530175512j:plain

16変数、5217のobservationがあります。2番目の全国地方公共団体コードと3番目の都道府県名は130001がコードで、東京都の1種類しかないので、あってもしょうがないです。削除します。

f:id:cross_hyou:20200530175854j:plain

市町村名や患者_属性などlogiタイプの変数がきになりますね。

summary関数でみてみましょう。

f:id:cross_hyou:20200530180108j:plain

logicalの変数は全部NAですね。これらは削除しましょう。

それと1番目のNoですが最大値が10169って、5217しかデータないのにおかしいですよね。意味なさそうだからこれも削除します。

必要なのは、3, 4, 5, 6, 7, 8と14番目の変数です。

f:id:cross_hyou:20200530180523j:plain

これでだいぶすっきりしました。

公表_年月日がFactorになっていますがこれを日付に変更したいですよね。。どうすればいいのかな?

strptime関数を使うとよさそうです。

f:id:cross_hyou:20200530181155j:plain

西暦/月/日というならびですから、%Y/%m/%dというようにsprtime関数で指定すればいいようです。西暦が4桁でなく、下2桁のときは小文字で%yとするそうです。

class関数でクラスを確認しました。POSIXlt, POSIXtと日付を表すクラスになりました。

今回は以上です。

 

GDPギャップのデータ分析6 - GDPギャップを潜在成長率と資本投入と労働投入で回帰分析をする。」

 

www.crosshyou.info

 の続きです。

GDPギャップを回帰分析してみましょう。

R言語のlm関数を使います

f:id:cross_hyou:20200530141527j:plain

p-valueは3.126e-07と0.05よりも小さいので有意なモデルです。

InterceptはP値が0.05よりも大きいですね。削除してみます。

f:id:cross_hyou:20200530141911j:plain

update関数で、-1とすれば切片を削除できます。anova関数でmodel1とmodel2を比較しましたが、Pr(>F)が0.1361なので、二つのモデルに有意な違いはありません。

model2をsummary関数で確認してみます。

f:id:cross_hyou:20200530142057j:plain

Multiple R-Squaredが0.3229とmodel1よりもよくなりました。

実際のGDPギャップとモデルの予測値の散布図を見てみましょう。

f:id:cross_hyou:20200530150833j:plain

f:id:cross_hyou:20200530150848j:plain

model2のほうが赤い直線の周りに集まっているように見えます。

model2の残差プロットなどをみてみます。

f:id:cross_hyou:20200530151117j:plain

f:id:cross_hyou:20200530151131j:plain

左上の残差プロットは平均した散らばり具合なのでいい感じだと思います。

GDPギャップは潜在成長率が小さいほど、資本投入と労働投入が大きいほど大きいといえます。

今回は以上です。

 

GDPギャップのデータ分析5 - GDPギャップと相関関係のある変数をR言語のcor.test関数で調べる。

 

www.crosshyou.infoの続きです。

 各変数間の散布図マトリックスをみてみます。

f:id:cross_hyou:20200530092152j:plain

f:id:cross_hyou:20200530092205j:plain

R言語のpairs関数で散布図マトリックスを描きます。散らばっているというよりは、ぐにゃぐにゃしている感じですね。

cor関数で相関係数マトリックスをみてみます。

f:id:cross_hyou:20200530092428j:plain

GDPギャップとの相関係数を見ると、一番相関係数が高いのは資本投入で0.323です。

次が潜在成長率で0.231です。

これらの相関係数が0と有意に違うのか、cor.test関数で確認します。

lappy関数を使って、いっぺんにcor.test関数を各変数に適用します。

f:id:cross_hyou:20200530093147j:plain

Yearとの相関のp値は0.5455なので相関があるとは言えません。

GDP_Potentialとの相関のp値は0.003463なので相関があると言えます。

f:id:cross_hyou:20200530093341j:plain

TFPとの相関係数のp値は0.1517なので相関があるとはいえません。

Capital_Inputとの相関係数のp値は3.336e-05なので相関があると言えます。

f:id:cross_hyou:20200530093545j:plain

Labour_Inputとの相関係数のp値は0.0264と0.05よりも小さいので、相関関係があると言えます。

Nendaiとの相関係数のp値は、0.5083なので相関関係があるとはいえません。

GDPギャップと相関関係があると言えるのは、潜在成長率、資本投入、労働投入の三つの変数だとわかりました。

今回は以上です。





 

GDPギャップのデータ分析4 - 80年台、90年台、2000年台、2010年台と10年ごとの年台で差があるのか。

 

www.crosshyou.infoの続きです。

前回は四半期ごとの違いはありませんでした。

今回は、1980年台、1990年台、2000年台、2010年台と10年ごとに区切った年台ごとに差があるかどうかを調べます。

まず、年台を表す変数を作成します。

f:id:cross_hyou:20200527114035j:plain

こうして作成したdf$Nendaiを使って前回同様にaov関数でANOVA分析をして、summary関数で結果を表示します。lapply関数で一瞬でやってしまいます。

f:id:cross_hyou:20200527114206j:plain

GDPギャップは年台ごとの違いはありませんが、その他は年台ごとに違いがありますね。

年代ごとの平均値も出しましょう。

f:id:cross_hyou:20200527114503j:plain

tapply関数をlapply関数をつかってすべての変数について適用しました

潜在成長率、資本投入、労働投入は1980年台が一番高いですね。

plot関数で箱ひげ図も作りましょう。for関数で一気に作成します。

f:id:cross_hyou:20200527115510j:plain

f:id:cross_hyou:20200527115523j:plain

この箱ひげ図を見ると、1980年台だけが異様に高い値であることがわかります。

今回は以上です。

 

GDPギャップのデータ分析3 - 第1四半期、第2四半期、第3四半期、第4四半期で差があるのか

 

www.crosshyou.infoの続きです。今回は第1四半期、第2四半期、第3四半期、第4四半期で差があるのかどうかを調べようと思います。

R言語のaov関数とsummary関数を使います。

GDPギャップからみていきます。

f:id:cross_hyou:20200526073326j:plain

Pr(>F)が0.997ですから四半期によってGDPギャップに差があるとは言えないです。

 

潜在成長率はどうでしょうか?

f:id:cross_hyou:20200526073546j:plain

潜在成長率も四半期によっての違いはないです。

 

TFP(全要素生産性)はどうでしょうか?

f:id:cross_hyou:20200526073746j:plain

TFPの差はないです。

 

資本投入はどうでしょうか?

f:id:cross_hyou:20200526073921j:plain

資本投入も四半期によっての違いはないです。

f:id:cross_hyou:20200526074057j:plain

労働投入も四半期ごとの違いはないです。

上のように、一つの変数ごとにsummary(aov(~~でANOVAを分析しましたが、lapply関数とfunction関数を使っていちどに実行することもできます。

f:id:cross_hyou:20200526074656j:plain

 function(x) summary(aov(x ~ df$Quarter))のsummary(aov(x ~ df$Quarter))にdf$GDP_Gap, df$GDP_Potentialとlapply関数で順番に入って実行されます。
今回は以上です。

 

GDPギャップのデータ分析2 - R言語でグラフを描く

 

www.crosshyou.info

 の続きです。

今回はそれぞれのデータのグラフを描いてみます。plot関数を使います。

f:id:cross_hyou:20200525062119j:plain

f:id:cross_hyou:20200525062130j:plain

GDPギャップのグラフです。マイナスの時が多いようです。

f:id:cross_hyou:20200525062345j:plain

f:id:cross_hyou:20200525062357j:plain

GDPの潜在成長率のグラフです。最近は1%のちょっと下あたりです。

f:id:cross_hyou:20200525062658j:plain

f:id:cross_hyou:20200525062754j:plain

TFPのグラフです。長期的に低下傾向です。

f:id:cross_hyou:20200525063018j:plain

f:id:cross_hyou:20200525063030j:plain

 資本投入量のグラフです。最近は上昇しているようですが、ピーク時に比べるとだいぶ低いです。

f:id:cross_hyou:20200525063545j:plain

f:id:cross_hyou:20200525063558j:plain

労働投入量のグラフです。最近は上昇傾向ですね。

 

これらを一つのグラフにしてみます。

まずデータの範囲を確認します。

f:id:cross_hyou:20200525064050j:plain

最大値は一番大きくて4.8です。最小値は一番小さくて-6.9です。-7から5をY軸の範囲にするといいですね。

f:id:cross_hyou:20200525065136j:plain

f:id:cross_hyou:20200525065150j:plain

こうして一つのグラフにすると、GDPギャップは変動の度合いが大きいことがわかります。

今回は以上です。