
今回からしばらくは、UCI Machine Leraning Repository にある Wine Quality のデータを分析しようと思います。
Cortez, P., Cerdeira, A., Almeida, F., Matos, T., & Reis, J. (2009).
Wine Quality [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C56S3T.
です。
1 ~ 10 で格付けされているワインのクオリティを推測するモデルを作る、というデータセットです。
早速ファイルをダウンロードします。

白ワインのデータと赤ワインのデータの2つのファイルでしたが、変数は同じだったので、上の画像のように統合して1つのCSVファイルにしました。
これをRで分析しよう、という計画です。
まず、tidyverseを読み込みます。

read_csv()関数でファイルを読み込みます。

glimpse()関数で確認します。

summary()関数でもみてみましょう。

NAのある変数は無いようです。qualityは実際には3から9の範囲ですね。
今回は以上です。
次回は
です。
今回のコードは以下になります。
#
# tidyverseパッケージの読み込み
library(tidyverse)
#
# CSVファイルを読み込む
df_raw <- read_csv("uci_wine_quality.csv")
#
# glimpse()で確認
glimpse(df_raw)
#
# summary()でも確認
summary(df_raw)
#
(冒頭の画像は Bing Image Creator で生成しました。プロンプトは A photograph of a natural landscape, the murmur of a stream, autumn foliage, blue sky and white clouds です。)