Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI Machine Learning Repository の Wine Quality のデータの分析3 - 赤ワインと白ワインの違いをヒストグラムで視覚化

www.crosshyou.info

の続きです。今回は赤ワインと白ワインの違いをヒストグラムにしてみてみます。

まずは、fixed_acidityです。

上段のピンクが赤ワインで、下段のグリーンが白ワインです。赤ワインのほうが幅広く分布しています。

このようなヒストグラムを他の変数でも作るので、専用の自作関数を作りました。

それでは、どんどんヒストグラムを描いていきます。

次は、volatile_acidityです。

白ワインのほうが数値が小さいほうに分布しています。

次は、citric_acidです。

白ワインは正規分布していないですね。

次は、residual_sugarです。

白ワインのほうが分布が広いですね。

次は、cholridesです。

赤ワインのほうが分布が右寄りですね。

次は、free_sulfer_dioxideです。

白ワインのほうが分布が右寄りですね。

次は、total_sulfer_dioxideです。

これも白ワインのほうが分布が右寄りですね。

次は、demsityです。

これは赤ワインのほうが分布が右寄りですね。

次は、pHです。

pHは赤ワインのほうが分布が右寄りですね。

次は、sulphatesです。

sulphatesも赤ワインのほうが分布が右寄りですね。

次は、alcholです。

これはあまり赤と白の違いは無いようです。

最後は quality です。

どうでしょうか?赤ワインのほうが若干クオリティが低いのが多い気がします。

t.test()関数で赤ワインと白ワインのクオリティの平均値に違いがあるかどうか検定してみます。

赤ワインのqualityの平均値は5.636で、白ワインのqualityの平均値は5.878となっていて、白ワインのほうが平均値は高いです。p値は2.2e-16より小さいので、両者の平均値は統計学的に有意に違います。

95%信頼区間は、-0.289 ~ -0.195です。

両者の違いをパーセントで表すと、3%ぐらいです。そんなに大きな違いではないですね。

今回は以上です。

次回は

www.crosshyou.info

です。

 

最初から読むには、

www.crosshyou.info

です。

今回のコードは以下になります。

#
# 白ワイン、赤ワインの違い
# fixed_acidity
df |> 
  ggplot(aes(x = fixed_acidity, fill = color)) +
  geom_histogram() +
  facet_wrap(~ color, nrow = 2)
#
# ヒストグラムの自作関数
histogram <- function(df, x, color = "white", binwidth = NULL) {
  df |> 
    ggplot(aes(x = {{x}}, fill = color)) +
    geom_histogram(color = color, binwidth = binwidth) + 
    facet_wrap(~ color, nrow = 2)
}
#
# histogram()で確認
# volatile_acidity
df |> histogram(volatile_acidity)
#
# citric_acid
df |> histogram(citric_acid)
#
# residual_sugar
df |> histogram(residual_sugar)
#
# cholrides
df |> histogram(chlorides)
#
# free_sulfur_dioxide
df |> histogram(free_sulfur_dioxide)
#
# total_sulfer_dioxide
df |> histogram(total_sulfur_dioxide)
#
# demsity
df |> histogram(density)
#
# pH
df |> histogram(pH)
#
# sulphates
df |> histogram(sulphates)
#
# alcohol
df |> histogram(alcohol)
#
# quality
df |> histogram(quality,
                binwidth = 1)
#
# 赤ワインと白ワインのquality
t.test(
  df$quality[df$color == "red"],
  df$quality[df$color == "white"]
)
#

(冒頭の画像は、Bing Image Creator で生成しました。プロンプトは very fine realistic close up of tulip flowers, flowering under the sky, photo です。)