の続きです。
前回は給与所得と総計に正の相関関係があることがわかりました。
今回はまず、相関マトリックスをR言語のcor関数で算出してみましょう。
cor関数をデータフレームで使うと、NAのある変数は相関係数を計算できないので、あらかじめ、data[ , c(-4, -6, -13, -16, -17, -18)]とNAのある変数を除外してからcor関数を使いました。round関数で小数点以下第3位までの表示にしました。
総合と一番相関が高いのは給与所得ですね、0.985です。逆に一番相関が低いのが総合剰余所得です。
この総合剰余所得をちょっと調べてみましょう。
まずは、hist関数でヒストグラムです。
マイナスにも度数があることが確認できます。
plot関数とdensity関数でカーネル密度グラフを描きましょう。
小さい順に並べたグラフをsort関数とplot関数で描きます。
50番ぐらい以降の傾きが急ですね。boxplot関数で箱ひげ図を描きます。
外れ値が10個ぐらいありますね。summary関数で最大値、最小値、平均値、中央値をみてみましょう。
最小値は187億6400万円のマイナスということは還付されたのでしょうか?
最大値は3007憶7700万円、中央値が336億8000万円、平均値が556億2000万円です。
時系列をplot関数で描きます。
60年代と90年前後が金額が大きいですね。
総計との散布図もplot関数で描いてみましょう。
バラバラな散布ですね。
総合剰余所得の次に総計との相関の低い所得は山林所得でした。これもちょっと調べてみましょう。
まずはpar(mfrow = c(2,2))というコマンドで1つの画面にヒストグラム、カーネル密度グラフ、小さい順グラフ、箱ひげ図の4つを描いてしまいましょう。
時系列グラフをplot関数で描きます。
1990年以上は急速に減少していますね。summary関数で基本統計値を確認しておきましょう。
最小値は11億9800万円、最大値は761憶2100万円、中央値は220億3100万円、平均値は234億4000万円です。
総計との散布図をplot関数で描きましょう。
今回は以上です。
次回は
です。