Bing Image Creator で生成: A photo of a landscape from long ago, small yellow flowers fluttering in the gentle breeze.
今回は、UC Irvine の Machie Learning Repository のデータセットの中から、Automobile のデータを取得して分析してみます。
Schlimmer, J. (1985). Automobile [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5B01C.
Automobile - UCI Machine Learning Repository
こちらのデータです。
1987年に提供されたデータです。
このような ","(カンマ)で区切られたデータセットです。
もう一つ、
こういうファイルもありました。
これらのこれらのファイルから
このように、1行目に変数名を入力してファイルを整えました。
変数名の説明は、UCI のウェブサイトによると、
1. symboling: -3, -2, -1, 0, 1, 2, 3.
2. normalized-losses: continuous from 65 to 256.
3. make: alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, mazda, mercedes-benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, toyota, volkswagen, volvo
4. fuel-type: diesel, gas.
5. aspiration: std, turbo.
6. num-of-doors: four, two.
7. body-style: hardtop, wagon, sedan, hatchback, convertible.
8. drive-wheels: 4wd, fwd, rwd.
9. engine-location: front, rear.
10. wheel-base: continuous from 86.6 120.9.
11. length: continuous from 141.1 to 208.1.
12. width: continuous from 60.3 to 72.3.
13. height: continuous from 47.8 to 59.8.
14. curb-weight: continuous from 1488 to 4066.
15. engine-type: dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. num-of-cylinders: eight, five, four, six, three, twelve, two.
17. engine-size: continuous from 61 to 326.
18. fuel-system: 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. bore: continuous from 2.54 to 3.94.
20. stroke: continuous from 2.07 to 4.17.
21. compression-ratio: continuous from 7 to 23.
22. horsepower: continuous from 48 to 288.
23. peak-rpm: continuous from 4150 to 6600.
24. city-mpg: continuous from 13 to 49.
25. highway-mpg: continuous from 16 to 54. 26. price: continuous from 5118 to 45400.
だそうです。
symboling を回帰分析モデルで予測するためのデータセットとのことです。
それではまず、tidyverseパッケージを読み込みます。
read_csv()関数で読み込みました。
glimpse()関数でデータセットの様子をみてみます。
normalized_losses, bore, stroke, horsepower, peak_rpm, price は本来は数値データ、<dbl>とならないといけないのですが、"?" というNAを意味する文字があるために、文字列のデータとして認識されています。
次回は、こういう細かなデータセットの修正をします。
今回は以上です。
次回は
です。
今回のコードは、
#
# tidyverseの読み込み
library(tidyverse)
#
# データセットの読み込み
df_raw <- read_csv("imports-85.data.csv")
#
# glimpse()
glimpse(df_raw)
#
です。