Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

就業構造基本調査の分析3 - R言語のggplot2パッケージでヒストグラム、箱ひげ図を作図する

 

www.crosshyou.info

 の続きです。

今回はR言語のggolot2パッケージの関数を使ってヒストグラムや箱ひげ図を作図してみようと思います。

まず、「男女」「年齢」「続柄など」の3つのカテゴリ変数に"総数"という値があるので、これを削除したデータセット(tibble)を作成しましょう。

f:id:cross_hyou:20181127154322j:plain

filter関数を使って、"総数"以外を選択しました。table関数で"総数"が0になっていることが確認できます。

まずは、data_exの確認をします。

f:id:cross_hyou:20181127154849j:plain

このようなデータですね。「総数」のヒストグラムを作図してみましょう。ggplot関数のgeom_histgram関数です。

f:id:cross_hyou:20181127155729j:plain

f:id:cross_hyou:20181127155743j:plain

男女で色分けしたヒストグラムを作成してみましょう。color = 男女 というのを加えてみます。

f:id:cross_hyou:20181127160318j:plain

f:id:cross_hyou:20181127160335j:plain

すこしわかりにくいですね。fill = 男女 を試してみましょう。

f:id:cross_hyou:20181127160639j:plain

f:id:cross_hyou:20181127160834j:plain

こちらのほうがわかりやすいですね。でもヒストグラムが重なっているので、どうしても見にくいですね。geom_freqpoly関数を使ってみましょう。

f:id:cross_hyou:20181127161348j:plain

f:id:cross_hyou:20181127161400j:plain

こちらのほうがわかりやすいですね。

さらに、縦軸を個数ではなく、密度で表示してみましょう。y = .. density.. を追加します。

f:id:cross_hyou:20181127161943j:plain

f:id:cross_hyou:20181127162112j:plain

あんまり代わり映えしなかったですね。

geom_boxplot関数を使って箱ひげ図を作図してみます。

f:id:cross_hyou:20181127162527j:plain

f:id:cross_hyou:20181127162537j:plain

x = 男女 として男女別の箱ひげ図を作成しましょう。

f:id:cross_hyou:20181127163105j:plain

f:id:cross_hyou:20181127163124j:plain

女性のほうが中央値が高い位置にあり、男性のほうが外れ値が多いことがわかります。

x = 続柄など としてみましょう。

f:id:cross_hyou:20181127163446j:plain

f:id:cross_hyou:20181127163507j:plain

続柄によって分布に違いがありますね。x軸の表示が重なって読めなくなっているので、coord_flip()を追加します。

f:id:cross_hyou:20181127164116j:plain

f:id:cross_hyou:20181127164202j:plain

これで、どの箱ひげ図がどの属性なのかわかります。さらに中央値を基準にして並び替えて表示しましょう。

f:id:cross_hyou:20181127165154j:plain

f:id:cross_hyou:20181127165318j:plain

これでかなりわかりやすくなりました。

x = 年齢 でもやってみましょう。

f:id:cross_hyou:20181127165719j:plain

f:id:cross_hyou:20181127165744j:plain

きれいにできました。

今回は以上です。

次回は

 

www.crosshyou.info

 

です。