今回はWorld BankのDataBankからデータをダウンロードしてG7とBRICのGDP等のデータを分析してみましょう。
databank.worldbank.orgこれでから、いろいろやってみて以下のようなエクセルファイルをダウンロードしました。
これを加工してR言語に読込みやすいように、このようなCSVファイルにしました。
A列は地域を表しています。G7かBRICです。B列は国です。JPNは日本などです。Yearは西暦、Decadeは60年代とか70年代です。
E列のGDPGからJ列のADRまでが変数です。
このようになっています。GDPGがGDP成長率、IFRがインフレ率、UERが失業率、CABが経常収支の対GDP%、DIRが預金金利、ADRが人口に対する労働年齢の人の率です。
read.csv関数でこのデータをR言語に読込み、summary関数で基本統計量を出してみます。
となります。Region(地域)はBRICとG7です。table関数でCountryを全部表示しましょう。
BRA(ブラジル), CAN(カナダ), CHN(中国), DEU(ドイツ), FRA(フランス), GBR(イギリス), IND(インド), JPN(日本), RUS(ロシア), USA(アメリカ)です。
Yearを見ると最小値が1968で最大値が2017なのでこのデータセットは1968年から2017年のデータだとわかります。
GDPG、GDP成長率を見ると、最小値は-14.531%、最大値は19.300%、平均値は3.454%、中央値は3.141%だとわかります。
IFR、インフレ率を見ると、最小値は-7.634%、最大値は2947.733%、平均値は31.497%、中央値は3.839%だとわかります。インフレ率が3000%近くになった国があるのですね。1年で約30倍という物価上昇です。すごいですね。
UER、失業率は最小値は2.090%、最大値は13.53%、平均値は6.916%、中央値は6.720%です。
CAB、経常収支の対GDP%は、最小値は-5.84238%、最大値は17.47435%、平均値は-0.05427%、中央値は-0.45448%です。
DIR、預金金利は最小値は0.036%、最大値は9394.293%、平均値は102.615%、中央値は4.500%です。預金金利の最大値、すごいですね。
ADR、全人口に対する労働年齢人口の割合は最小値は35.59%、最大値は86.14%、平均値は53.95%、中央値は52.01%です。
平均値と中央値をみくらべてIFR(インフレ率)とDIR(預金金利)が大きく違っていて大きな外れ値があることが推測できます。
summary関数は標準偏差を計算しませんから、標準偏差も計算しましょう。
apply関数とsd関数を組み合わせます。
変動係数(標準偏差 / 平均値)も計算しましょう。
データのバラツキが一番小さいのはADR、労働年齢比率だとわかります。
今回は以上です。
次回は
です。