Generated by Bing Image Creator: Long wide view, wild garden of colorful flowers
の続きです。
前回は、データを R に読み込んで、income というカテゴリーデータと数値データの関係性を geom_histogram() でヒストグラムにしてみました。
今回は、income というカテゴリーデータと他のカテゴリーデータとの関係性を調べてみましょう。
まずは、workclass と income です。
group_by() 関数で workclass と income でグループ化して、summarize() 関数の中で、 n() 関数で数をカウントし、その結果を geom_col() 関数でバーチャートにしました。
Private が一番多いですね。
Self-emp-inc が >50K の割合が高いです。
education と income をみてみます。
Masters や Bachelors は >50K の割合が高いです。
Married-civ-spouse が >50K の割合が高いです。
occupation と income をみてみます。
Prof-speciality, Exec-managerial などが >50K の割合が高いです。
relationship と income です。
Husband は、>50K の割合が高いです。
race と income をみてみます。
White が一番多いです。
sex と income をみてみます。
sex では、やはり Male のほうが >50K の割合が高いです。
最後は native_country と income です。
いろんな国の人がいることがわかります。Japan もあります。
今回は以上です。
初めから読むには、
です。