の続きです。
今回は、各変数の分布をヒストグラムを作成して見てみましょう。
ggplot2パッケージのgeom_histogram関数とfacet_grid関数を使いました。
1人当りの県民所得のヒストグラムです。2009年度、2011年度、2014年度と年を経過するごとに少しずつ分布が右側に動いているように見えます。右端にポツンと1つだけの値があります。
次は、従業者人数が1~4人の事業所割合のヒストグラムを見てみます。
これは、年を経過するごとに分布が左に移動しているように見えますね。
large, 従業者人数が300人以上の事業所割合はどうでしょうか?
分布が右側に動いているかは微妙ですが、右端にポツンと一つあるのは1人当りの県民所得と同じですね。
shotoku, laregの大きな外れ値はどこか、東京都だと思いますが、一応確認しておきましょう。
top_n関数でshotoku、largeの上位3のデータを表示しました。予想どおり東京都ですね。
今回は以上です。