crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

World Bank DataBankのG7とBRICのGDPなどの分析1 - R言語で基本統計量を算出する

今回はWorld BankのDataBankからデータをダウンロードしてG7とBRICのGDP等のデータを分析してみましょう。

databank.worldbank.orgこれでから、いろいろやってみて以下のようなエクセルファイルをダウンロードしました。

f:id:cross_hyou:20181129185742j:plain

これを加工してR言語に読込みやすいように、このようなCSVファイルにしました。

f:id:cross_hyou:20181129185905j:plain

 

A列は地域を表しています。G7かBRICです。B列は国です。JPNは日本などです。Yearは西暦、Decadeは60年代とか70年代です。

E列のGDPGからJ列のADRまでが変数です。

f:id:cross_hyou:20181129190145j:plain

 

このようになっています。GDPGがGDP成長率、IFRがインフレ率、UERが失業率、CABが経常収支の対GDP%、DIRが預金金利ADRが人口に対する労働年齢の人の率です。

read.csv関数でこのデータをR言語に読込み、summary関数で基本統計量を出してみます。

f:id:cross_hyou:20181129190649j:plain

となります。Region(地域)はBRICとG7です。table関数でCountryを全部表示しましょう。

f:id:cross_hyou:20181129190925j:plain

 

BRA(ブラジル), CAN(カナダ), CHN(中国), DEU(ドイツ), FRA(フランス), GBR(イギリス), IND(インド), JPN(日本), RUS(ロシア), USA(アメリカ)です。

Yearを見ると最小値が1968で最大値が2017なのでこのデータセットは1968年から2017年のデータだとわかります。

GDPG、GDP成長率を見ると、最小値は-14.531%、最大値は19.300%、平均値は3.454%、中央値は3.141%だとわかります。

IFR、インフレ率を見ると、最小値は-7.634%、最大値は2947.733%、平均値は31.497%、中央値は3.839%だとわかります。インフレ率が3000%近くになった国があるのですね。1年で約30倍という物価上昇です。すごいですね。

UER、失業率は最小値は2.090%、最大値は13.53%、平均値は6.916%、中央値は6.720%です。

CAB、経常収支の対GDP%は、最小値は-5.84238%、最大値は17.47435%、平均値は-0.05427%、中央値は-0.45448%です。

DIR、預金金利は最小値は0.036%、最大値は9394.293%、平均値は102.615%、中央値は4.500%です。預金金利の最大値、すごいですね。

ADR、全人口に対する労働年齢人口の割合は最小値は35.59%、最大値は86.14%、平均値は53.95%、中央値は52.01%です。

平均値と中央値をみくらべてIFR(インフレ率)とDIR(預金金利)が大きく違っていて大きな外れ値があることが推測できます。

summary関数は標準偏差を計算しませんから、標準偏差も計算しましょう。

apply関数とsd関数を組み合わせます。

f:id:cross_hyou:20181129192928j:plain

 

変動係数(標準偏差 / 平均値)も計算しましょう。

f:id:cross_hyou:20181129193142j:plain

 

データのバラツキが一番小さいのはADR、労働年齢比率だとわかります。

今回は以上です。

 次回は

 

www.crosshyou.info

 

です。