Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI Machine Learning Repository の Wine Quality のデータの分析1 - データを R にインポートする

今回からしばらくは、UCI Machine Leraning Repository にある Wine Quality のデータを分析しようと思います。

Cortez, P., Cerdeira, A., Almeida, F., Matos, T., & Reis, J. (2009).
Wine Quality [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C56S3T.

です。

1 ~ 10 で格付けされているワインのクオリティを推測するモデルを作る、というデータセットです。

早速ファイルをダウンロードします。

白ワインのデータと赤ワインのデータの2つのファイルでしたが、変数は同じだったので、上の画像のように統合して1つのCSVファイルにしました。

これをRで分析しよう、という計画です。

まず、tidyverseを読み込みます。

read_csv()関数でファイルを読み込みます。

glimpse()関数で確認します。

summary()関数でもみてみましょう。

NAのある変数は無いようです。qualityは実際には3から9の範囲ですね。

今回は以上です。

次回は

www.crosshyou.info

です。

今回のコードは以下になります。

#
# tidyverseパッケージの読み込み
library(tidyverse)
#
# CSVファイルを読み込む
df_raw <- read_csv("uci_wine_quality.csv")
#
# glimpse()で確認
glimpse(df_raw)
#
# summary()でも確認
summary(df_raw)
#

(冒頭の画像は Bing Image Creator で生成しました。プロンプトは A photograph of a natural landscape, the murmur of a stream, autumn foliage, blue sky and white clouds です。)