Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

企業行動に関するアンケート調査のデータ分析2 - Rでライン・グラフ、箱ひげ図、ヒストグラム、散布図を描く

Bing Image Creator で生成: fine tuning landscape photograph of world high mountains

www.crosshyou.info

の続きです。

今回はデータを可視化(ビジュアライゼーション)してみます。

まずは、年ごとの推移をライン・グラフでみてみます。

forecastはsectorによる違いは、あまりないことがわかります。

hensaのほうがsectorごとの違いが大きいようですが、forecastもhensaもsectorによる違いは大きくなくて、年別の違いのほうが大きいようです。

続いて、sector別の箱ひげ図を見てみましょう。

forecastもhensaもsector別には大きな違いはないようです。

つぎは、全体のデータの分布をヒストグラムにしてみてみましょう。

binwidth = 0.5 でヒストグラムの階級幅を0.5刻みにして、boundary = 0 で階級が0-0.5, 0.5-1.0と丁度良い区切りになるようにしています。正規分布ではないことがわかります。

hensaのほうが正規分布に近い(それでもだいぶ偏りはありますが。。)分布であることがわかります。

それでは、forecastとhensaの関係を散布図にしてみてみます。

なんとなくですが、forecastが小さいほど、hensaが大きいような感じです。

sector別でなくて、year別に色分けしてみます。

こちらのほうが色分けがきれいになっていますね。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。

今回のRコードは以下になります。

# forecastの推移のライングラフ
df |> 
  ggplot(aes(x = y, y = forecast, group = sector)) +
  geom_line(aes(color = sector)) +
  labs(title = "sectorごとのforecastの推移",
       x = "year")
#
df |> 
  ggplot(aes(x = y, y = hensa, group = sector)) +
  geom_line(aes(color = sector)) +
  labs(title = "sectorごとのhensaの推移",
       x = "year")
#
# forecastのsector別の箱ひげ図
df |> 
  ggplot(aes(x = sector, y = forecast, group = sector)) +
  geom_boxplot()
#
# hensaのsector別の箱ひげ図
df |> 
  ggplot(aes(x = sector, y = hensa, group = sector)) +
  geom_boxplot()
#
# forecastの全体のヒストグラム
df |> 
  ggplot(aes(x = forecast)) +
  geom_histogram(color = "white", binwidth = 0.5,
                 boundary = 0)
#
# hensaの全体のヒストグラム
df |> 
  ggplot(aes(x = hensa)) +
  geom_histogram(color = "white", binwidth = 0.25,
                 boundary = 0)
#
# forecastとhensaの散布図
df |> 
  ggplot(aes(x = forecast, y = hensa)) +
  geom_point(aes(color = sector), size = 3)
#
# forecastとhensaの散布図2
df |> 
  ggplot(aes(x = forecast, y = hensa)) +
  geom_point(aes(color = year), size = 2.5)