の続きです。
今回は、World Bank DataBankのG7とBRICの失業率データとGDPデータの相関をみてみたいと思います。
まずは、全体のGDPデータと失業率データの基本統計量をsummary関数で表示します。
これがGDP成長率(GDPG)の基本統計量です。最小値は-14.531%、最大値は19.300%、平均値は3.454%、中央値は3.141%で、NAが25個あります。
これが失業率(UER)の基本統計量です。最小値は2.090%、最大値は13.530%、平均値は6.720%、中央値は6.916%で、NAが253個あります。NAが多いですね。
あ、そうだ、データの個数をlength関数で確認しておきましょう。
両方とも同じ数(あたりまえですが)で550個です。失業率はNAが253個なので半分近くNAなのですね。。少し気になります。
Region, Country, Year, Decade, GDPG, UERだけのデータフレームを作成して、NAの行を削除してしまいましょう。
まずは、カテゴリ変数とGDP成長率と失業率だけのデータフレームを作ります。
このあとにna.omit関数でNAのある行を削除します。
Decadeに注目すると、60年代、70年代、80年代が0になっています。つまりこのデータは90年代からだとわかります。国別のデータ個数をtable関数でみておきましょう。
全部同じ個数ですね、27年間分のGDP成長率と失業率がある、ということです。
それでは、二つの変数の散布図をggplot関数のgeom_point関数で作図しましょう。
あらかじめ、library(tidyverse)としてggplot2パッケージを呼び出しておきます。
あんまり相関はない感じですね。cor関数で相関係数を計算してみます。
マイナス相関なのですね。
G7とBRICで色分けした散布図を描いてみます。color = Regionと加えます。
青い点、G7のほうがGDP成長率が狭い範囲に集中している感じですね。
geom_smooth関数も追加してみます。
全体のプロットにフィットするようなラインが追加されました。このラインが全体的に右下がりなので相関係数がマイナスなのでしょうね。
geom_smooth関数にもcolor = Regionを適用してみましょう。
なんとなく、かっこいいグラフですね。こういうグラフが簡単にできてしまうのがR言語のいいところですね。
color = Decadeにしてみましょう。
ラインが3本になって網掛部分か重なりあってわかりにくいので、se = FALSEを加えます。
3本のラインの形がわかりやすくなりましたね。
最後に国別でみてみましょう。国は11か国あるのでfacet_wrap関数を使いましょう。
今回は以上です。
次回は
です。