に引き続き、消費者物価指数のデータで遊びたいと思います。
前回の分析で各変数の推移をグラフにしましたが、いろいろな動きがありました。
そこで、今回はR言語で「総合」の消費者物価指数と一番相関の高い、低い、無相関の変数は何かを調べてみます。
前回までで作成したデータフレームを再掲します。
1列目が「年」の変数で、1970年から2017年までの48年間で、2列目以降が消費者物価指数の各変数ですね。2列目が「総合」です。
今回は、「総合」と各変数の相関を調べてみましょう。R言語のcor関数を使います。
例えば、「総合」と「食料」ならば、cor(DF_CPI3$総合, DF_CPI3$食料)というコマンドになります。
このように相関係数は0.9944265とわかります。これをあと60回以上繰り返せばいいのですが、面倒なので、for関数で一気に計算してしまいましょう。
上のようなコマンドです。Soukan <- vector()で相関係数を格納するベクトルを作成し、for関数で3列目の変数から68列目の変数まで繰り返しcor関数で相関係数を計算して、Soukanに格納しています。names関数でそれぞれの要素の名前を付与しています。
ちゃんとできたか見てみましょう。
食料の値が0.9944265となっていて、先に計算した値と一致していますので、うまくできたとわかります。
sort関数で小さい順に表示しましょう。
「総合」と一番相関が強いのは「履物類」です。一番相関が逆相関なのは「家庭用.耐久財」です。相関係数の絶対値が一番小さいのは「通信」です。この3変数と「総合」の散布図をplot関数で描いてみましょう。
このようになりました。
次回はggplot関数で散布図を描きます。