の続きです。
今回は、Pratio(15-64歳人口割合), Shotoku(1人当り県民所得), Energy(1人当り最終エネルギー消費量)の3つの変数について、箱ひげ図やヒストグラムを描いでみます。
まず、前段階として、9年間の値を平均して都道府県別のデータを作成しましょう。tapply関数とmean関数を使います。
島根県が一番、15-64歳の人口割合が低いのですね、57.3%です。以下、高知県(58.3%)、秋田県(58.5%)、山口県(58.5%)と続きます。
東京都が一番割合が高く、67.4%です。以下、神奈川県(65.8%)、埼玉県(65.4%)、愛知県(64.6%)となっています。
沖縄県が一番、1人当り県民所得が低いです。202万3千円です。鳥取県が214万2千円、宮崎県が215万4千円、長崎県が224万9千円と続いています。
東京都が一番所得が高く、529万3千円です。愛知県が342万4千円、三重県が329万9千円、富山県が319万3千円となります。
奈良県が一番、1人当り最終エネルギー消費量が少ないです。71.6GJ、沖縄県が73.0GJ、埼玉県が80.4GJ、長崎県が82.8GJとなっています。
山口県が一番、エネルギー消費量が多いです。340.3GJです。大分県が331.1GJ、岡山県が306.6GJ、和歌山県が221.6GJです。私の想像とはぜんぜん違う都道府県が上位でした。
それでは、これらの変数のヒストグラムを見てみましょう。hist関数です。
青が15-64歳人口割合、オレンジが1人当り県民所得、緑が1人当り最終エネルギー消費量です3つのヒストグラムすべてが右側の裾が広い分布形状ですね。
boxplot関数で箱ひげ図を描きましょう。
青の人口割合は外れ値は無いですが、オレンジの所得は上方に外れ値が一つります。東京都ですね。緑のエネルギー消費量は外れ値が3つあります。山口県、岡山県、大分県です。
3つの変数の相関マトリックスと散布図を作成してみましょう。
まずは相関マトリックスです。data.frame関数で一つのデータフレームにしてから、cor関数をつかいました。
15-64歳人口割合と1人当り県民所得の相関係数は0.56です。
15-64歳人口割合と1人当りエネルギー最終消費量は-0.21です。
1人当り県民所得と1人当りエネルギー最終消費量は0.03です。
県民所得とエネルギー消費量は相関が無いのですね。
散布図はpairs関数を使いました。
こんどは、各変数の対数をとった値での相関マトリックス、散布図マトリックスを作成してみましょう。
どうでしょうか?
対数変換した後の相関は、
1人当りエネルギー消費量と人口割合の相関係数は、-0.19です。
1人当りエネルギー消費量と1人当り県民所得の相関係数は、0.12です。
絶対値の平均は、0.158です。
対数変換しない相関は、
1人当りエネルギー消費量と人口割合の相関係数は、-0.21です。
1人当りエネルギー消費量と1人当り県民所得の相関係数は、0.03です。
絶対値の平均は、0.118です。
対数変換した後の相関のほうが高いので、次回は対数変換した値で回帰分析をしてみましょう。
今回は以上です。