Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI の Adult データの分析2 - 2つのカテゴリカルデータの関係性は geom_col() でバーチャートで。

Generated by Bing Image Creator: Long wide view, wild garden of colorful flowers

www.crosshyou.info

の続きです。

前回は、データを R に読み込んで、income というカテゴリーデータと数値データの関係性を geom_histogram() でヒストグラムにしてみました。

今回は、income というカテゴリーデータと他のカテゴリーデータとの関係性を調べてみましょう。

まずは、workclass と income です。

group_by() 関数で workclass と income でグループ化して、summarize() 関数の中で、 n() 関数で数をカウントし、その結果を geom_col() 関数でバーチャートにしました。

Private が一番多いですね。

Self-emp-inc が >50K の割合が高いです。

education と income をみてみます。

Masters や Bachelors は >50K の割合が高いです。

Married-civ-spouse が >50K の割合が高いです。

occupation と income をみてみます。

Prof-speciality, Exec-managerial などが >50K の割合が高いです。

relationship と income です。

Husband は、>50K の割合が高いです。

race と income をみてみます。

White が一番多いです。

sex と income をみてみます。

sex では、やはり Male のほうが >50K の割合が高いです。

最後は native_country と income です。

いろんな国の人がいることがわかります。Japan もあります。

今回は以上です。

初めから読むには、

www.crosshyou.info

です。