Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI の Automobile のデータの分析1 - R にデータをインポートする。

Bing Image Creator で生成: A photo of a landscape from long ago, small yellow flowers fluttering in the gentle breeze.

今回は、UC Irvine の Machie Learning Repository のデータセットの中から、Automobile のデータを取得して分析してみます。

Schlimmer, J. (1985). Automobile [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5B01C.

Automobile - UCI Machine Learning Repository

こちらのデータです。

1987年に提供されたデータです。

このような ","(カンマ)で区切られたデータセットです。

もう一つ、

こういうファイルもありました。

これらのこれらのファイルから

このように、1行目に変数名を入力してファイルを整えました。

変数名の説明は、UCI のウェブサイトによると、

1. symboling: -3, -2, -1, 0, 1, 2, 3.

2. normalized-losses: continuous from 65 to 256.

3. make: alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, mazda, mercedes-benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, toyota, volkswagen, volvo

4. fuel-type: diesel, gas.

5. aspiration: std, turbo.

6. num-of-doors: four, two.

7. body-style: hardtop, wagon, sedan, hatchback, convertible.

8. drive-wheels: 4wd, fwd, rwd.

9. engine-location: front, rear.

10. wheel-base: continuous from 86.6 120.9.

11. length: continuous from 141.1 to 208.1.

12. width: continuous from 60.3 to 72.3.

13. height: continuous from 47.8 to 59.8.

14. curb-weight: continuous from 1488 to 4066.

15. engine-type: dohc, dohcv, l, ohc, ohcf, ohcv, rotor.

16. num-of-cylinders: eight, five, four, six, three, twelve, two.

17. engine-size: continuous from 61 to 326.

18. fuel-system: 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.

19. bore: continuous from 2.54 to 3.94.

20. stroke: continuous from 2.07 to 4.17.

21. compression-ratio: continuous from 7 to 23.

22. horsepower: continuous from 48 to 288.

23. peak-rpm: continuous from 4150 to 6600.

24. city-mpg: continuous from 13 to 49.

25. highway-mpg: continuous from 16 to 54. 26. price: continuous from 5118 to 45400.

だそうです。

symboling を回帰分析モデルで予測するためのデータセットとのことです。

それではまず、tidyverseパッケージを読み込みます。

read_csv()関数で読み込みました。

glimpse()関数でデータセットの様子をみてみます。

normalized_losses, bore, stroke, horsepower, peak_rpm, price は本来は数値データ、<dbl>とならないといけないのですが、"?" というNAを意味する文字があるために、文字列のデータとして認識されています。

次回は、こういう細かなデータセットの修正をします。

今回は以上です。

次回は

www.crosshyou.info

です。

今回のコードは、

#
# tidyverseの読み込み
library(tidyverse)
#
# データセットの読み込み
df_raw <- read_csv("imports-85.data.csv")
#
# glimpse()
glimpse(df_raw)

#

です。