Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI Machine Learning Repository の Wholesale customers のデータの分析1 - R でデータをインポート

(Bing Image Creator で生成: Closeup of white Osteospermum flowers, background is long great river, blue sky, photo)

今回からしばらくは、UCI Machine Learning Repository の Wholesale customer のデータを分析してみようと思います。

Cardoso, M. (2013). Wholesale customers [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5030X.

CSVファイルはこんな感じです。

データの説明は、

Region というカテゴリカル変数をその他の変数で分類するというクラシフィケーションのためのデータセットです。

まず、tidyverse パッケージを読み込みます。

read_csv() 関数でCSVファイルをインポートします。

glimpse() 関数でデータの様子をみてみます。

Region と Channel はカテゴリー変数なのですが、数値として読み込まれています。そして、Region がターゲット変数ですから、先頭にあったほうがいいです。

なので、少し加工します。

サイトによると、

なので、

Region の1は、Lisbon で、2は、Oporto で、3は、Other Region です。

Channel の1は、Horeca で、2は、Retail です。

わかりやすいようにしましょう。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

今回のコードは以下になります。

#
# tidyverse パッケージを読み込む
library(tidyverse)
#
# CSVファイルをインポート
df_raw <- read_csv("wholesale_customers.csv")
#
# データの様子を確認
glimpse(df_raw)
#
# df_raw を加工
df <- df_raw |> 
  relocate(Region) |> 
  mutate(Region = factor(Region),
         Channel = factor(Channel))
summary(df)
#
# ファクターのラベルを書き換え
levels(df$Region) <- c("Lisbon", "Oporto", "Other")
levels(df$Channel) <- c("Horeca", "Retail")
summary(df)
#