Bing Image Creator で生成: fine tuning landscape photograph of world high mountains
の続きです。
今回はデータを可視化(ビジュアライゼーション)してみます。
まずは、年ごとの推移をライン・グラフでみてみます。
forecastはsectorによる違いは、あまりないことがわかります。
hensaのほうがsectorごとの違いが大きいようですが、forecastもhensaもsectorによる違いは大きくなくて、年別の違いのほうが大きいようです。
続いて、sector別の箱ひげ図を見てみましょう。
forecastもhensaもsector別には大きな違いはないようです。
つぎは、全体のデータの分布をヒストグラムにしてみてみましょう。
binwidth = 0.5 でヒストグラムの階級幅を0.5刻みにして、boundary = 0 で階級が0-0.5, 0.5-1.0と丁度良い区切りになるようにしています。正規分布ではないことがわかります。
hensaのほうが正規分布に近い(それでもだいぶ偏りはありますが。。)分布であることがわかります。
それでは、forecastとhensaの関係を散布図にしてみてみます。
なんとなくですが、forecastが小さいほど、hensaが大きいような感じです。
sector別でなくて、year別に色分けしてみます。
こちらのほうが色分けがきれいになっていますね。
今回は以上です。
次回は、
です。
初めから読むには、
です。
今回のRコードは以下になります。
# forecastの推移のライングラフ
df |>
ggplot(aes(x = y, y = forecast, group = sector)) +
geom_line(aes(color = sector)) +
labs(title = "sectorごとのforecastの推移",
x = "year")
#
df |>
ggplot(aes(x = y, y = hensa, group = sector)) +
geom_line(aes(color = sector)) +
labs(title = "sectorごとのhensaの推移",
x = "year")
#
# forecastのsector別の箱ひげ図
df |>
ggplot(aes(x = sector, y = forecast, group = sector)) +
geom_boxplot()
#
# hensaのsector別の箱ひげ図
df |>
ggplot(aes(x = sector, y = hensa, group = sector)) +
geom_boxplot()
#
# forecastの全体のヒストグラム
df |>
ggplot(aes(x = forecast)) +
geom_histogram(color = "white", binwidth = 0.5,
boundary = 0)
#
# hensaの全体のヒストグラム
df |>
ggplot(aes(x = hensa)) +
geom_histogram(color = "white", binwidth = 0.25,
boundary = 0)
#
# forecastとhensaの散布図
df |>
ggplot(aes(x = forecast, y = hensa)) +
geom_point(aes(color = sector), size = 3)
#
# forecastとhensaの散布図2
df |>
ggplot(aes(x = forecast, y = hensa)) +
geom_point(aes(color = year), size = 2.5)