UnsplashのPierre Van Crombruggheが撮影した写真
の続きです。
今回は、Chapter 2 Data Visualization | Statistical Inference via Data Science (moderndive.com) を参考にしてR言語のggplot2パッケージを使っていくつかグラフを描きます。こちらのサイトには、The Five Named Graphsと称して5種類のグラフが紹介されています。ひとつずつ、実行してみます。
1つ目は散布図です。これはggplot() + geom_point()関数で作成できます。
wear_shoeをY軸に、mitsudoをX軸にした散布図です。両者はあまり関連なさそうです。
geom_point()の中に、alpha = 0.2 として点を薄くして、theme_bw()を追加して背景を白にしました。
Y軸をwear_shoe, X軸をpercapita17にした散布図です。filter()関数を使ってpercapita17がNAの行を除外してからggplot()関数とgeom_point()関数を使いました。percapita17の値が大きいほうがwear_shoeの値も大きい傾向があるようです。
2番目のグラフはライングラフです。ggplot()関数とgeom_line()関数を使います。
ggplot()の中で、group = pref としているので都道府県ごとのライングラフになります。最近のwear_shoeの値は低下傾向ですね。
3番目のグラフは、ヒストグラムです。ggplot()関数とgeom_histogram()関数を使います。
wear_shoeのヒストグラムです。左右対称な感じの分布ですね。bins = 25 としているので25個の棒があります。
4番目のグラフは箱ひげ図です。ggplot()関数とgeom_boxplot()関数を使います。
group = year として年ごとに箱ひげ図を描きました。1991年、1992年頃が一番金額が多いですね。
そして、5番目のグラフは棒グラフです。ggplot()関数とgeom_col()関数を使いました。
group_by()関数でyearのグループにしてから、summarize()関数の中でmean()関数を使いyearごとのwear_shoeの平均値を算出してグラフにしました。
以上の5種類のグラフから、
wear_shoeは1975年から1992年くらいまでは上昇していて、その後は低下傾向になっている、分布は左右対称の正規分布のような分布であることがわかりました。
今回は以上です。
次回は、
です。
初めから読むには、
です。