の続きです。
今回は、各変数のヒストグラムを描いて、データの分布形状を確かめます。
まずはengel: エンゲル係数からです。
少し右側の裾野が広い分布です。
year: 調査年別でもみておきます。
調査年は2005, 2006, 2007年です。目立った違いはないようです。aov関数でANOVA分析をしてみます。
p値は0.757ですのでyearによってengelに違いがあるとはいえないです。
つぎに、gdp_pop: 1人当たりの県内総生産額(平成17年基準)【百万円】のヒストグラムを描きます。
右端に離れ小島のようにデータがありますね。おそらく東京都でしょう。
対数変換してみましょう。
対数変換したほうが、右はしの離れ小島が少し大多数のグループと接近しましたね。
対数変換した値でyear別にヒストグラムを描いてみます。
log_gdp_pop: 対数変換した1人当たりの県内総生産額もyearによる違いはないようですね。ANOVA分析で確認します。
p値が0.842です。yearによる違いはありませんね。
続いて、mf: 男女比率のヒストグラムをみてみます。
左右のかたよりはlog_gdp_popのようにはないです。
year別のヒストグラムをみてみます。
mfもyearによる違いはないようですね。ANOVA分析で確認します。
p値は0.989です。mfはyearによる違いはありません。
working: 15~64歳の人口割合【%】のヒストグラムを描きます。
二つの山頂がある形ですかね。
year別のヒストグラムを描きます。
workingもyearによる違いはあるとは言えなさそうです。ANOVA分析で確認します。
p値は0.344なのでworkingもyearによる違いはありません。
まあ、2005、2006、2007という連続した3年間ですからどの変数も年による違いはないですよね。
前回、確認していなかった、各変数の標準偏差と変動係数を確認しておきます。
変動係数は標準偏差/平均値です。
変動係数でみると、gdp_popが一番変動の度合いが大きいですね。workingが一番ちいさいです。
今回は以上です。
次回は、
です。
はじめから読むには、
です。