Bing Image Creator で生成: Close up of Kalanchoe flowers, background is blue sky, white clouds, long river in the forest, photo
の続きです。今回はデータを R でグラフにしてみます。
Chapter 2 Data Visualization | Statistical Inference via Data Science
https://moderndive.com/v2/viz.html#FiveNG
このサイトにある5つのグラフを描こうと思います。
まずは scatterplots 散布図ですね。
交通事故と人口密度の散布図を描いてみます。
横軸が人口密度で、縦軸が交通事故です。色の濃淡は老年化指数を表しています。
明確な関連性は見られないですね。
The 5NG の2つ目は、lineargraphs です。線グラフですね。
年度と交通事故の線グラフを描きます。
ある年までは年々増加していますが、それから先は減少していることがわかります。
3つめの The 5NG は histograms ヒストグラムです。交通事故のヒストグラムを描いてみます。
500の当りが一番、度数が多いですね。右側の裾野が広い分布です。
The 5NG の4つ目は boxplots 箱ひげ図です。都道府県別の交通事故の箱ひげ図を描いてみます。
mutate(pref = reorder(pref, jiko, median)) のコードで pref を jiko の中央値の順に並び替えています。
静岡県が人口10万人当たり交通事故発生件数が多いんですね。意外でした。
さて、最後の The 5NG は barplots book 棒グラフです。交通事故の合計値を年度ごとに棒グラフにしてみます。
線グラフのところでもわかりましたが、交通事故は最近は減少傾向ですね。
今回は、
Welcome to ModernDive (v2) | Statistical Inference via Data Science
というウェブサイト上の本の中の The 5NG を参考にして、5つの基本的なグラフ、散布図、線グラフ、ヒストグラム、箱ひげ図、棒グラフを描きました。
今回は以上です。
初めから読むには、
です。
今回のコードは以下になります。
#
# The 5NG 1 - scatter plots
# 交通事故と人口密度
df |>
ggplot(aes(x = mitsudo, y = jiko)) +
geom_point(aes(color = elder))
#
# The 5NG 2 - linergraphs
# 交通事故と年度
df |>
group_by(year) |>
ggplot(aes(x = year, y = jiko)) +
geom_line(aes(group = pref))
#
# The 5NG 3 - histograms
# 交通事故のヒストグラム
df |>
ggplot(aes(x = jiko)) +
geom_histogram(color = "white")
#
# The 5NG 4 - boxplots
# 都道府県別の交通事故の箱ひげ図
df |>
mutate(pref = reorder(pref, jiko, median)) |>
ggplot(aes(x = jiko, y = pref)) +
geom_boxplot(aes(group = pref))
#
# The 5NG 5 - barplots
# 年度ごとの交通事故の合計件数
df |>
group_by(year) |>
summarize(total_jiko = sum(jiko)) |>
ggplot(aes(x = year, y = total_jiko)) +
geom_col()
#