Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

UCI の Automobile のデータの分析2 - R で symboling と数値型変数のグラフを描く

Bing Image Creator で生成: Close-up of pine cone with blue sky and green meadow in background

 

www.crosshyou.info

の続きです。

前回はデータセットをRにインポートしました。

今回は、数値型のデータと被説明変数のsymbolingとの関係をグラフにしてみます。

その前に、文字列データとして読み込まれたいくつかの変数をas.numeric()関数で数値型データに変換します。

NAの列をna.omit()関数で除外してしまいます。

symbolongの分布をみてみます。geom_histogram()でもいいですが、今回はcount()関数で処理してからgeom_col()関数を使いました。

山型の分布ですね。

それでは、symbolingと他の数値型変数の関係性をみていきましょう。symbolingは数値型データです。数値型データと数値型データの関係性を見るグラフは、散布図ですね。geom_point()関数を使います。

normalized_lossesからみていきましょう。

geom_boxplot()関数で箱ひげ図と、geom_smooth()関数で回帰線を加えてみました。右肩上がりの関係性のようです。

次は、wheel_baseです。

これは、右肩下がりの関係です。

次は、lengthです。

これは右肩下がりの関係です。

次は、widthです。

若干、右肩下がりですね。

次は、heightです。

これは右肩下がりの関係ですね。

次は、curb_weightです。

右肩下がりですね。

次は、engine_sizeです。

下がって、上がってという感じですね。

次は、boreです。

右肩下がりですね。

次は、strokeです。

なんか、右肩下がりでもなく、右肩上がりでもなく、なんかよくわからないですね。

次は、compression_ratioです。

左側のグループと右側のグループにわかれていますね。

次は、horsepowerです。

下がって、上がってという感じです。

次は、peak_rpmです。

上がって、水平という感じです。

次は、city_mpgです。

水平、右肩上がりという感じですね。

次は、highway_mpgです。

少し右肩上がりですね。

最後は、priceです。

水平でしょうか。。

以上、symbolingと数値型データの散布図をみてみました。normalized_lossesやlengthはけっこうはっきりした関係性がありましたね。

今回は以上です。

次回は

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。

今回のコードは以下になります。
#
# normalized_losses, bore, stroke, horsepower, peak_rpm, price を数値にする
df <- df_raw |> 
  mutate(normalized_losses = as.numeric(normalized_losses),
         bore = as.numeric(bore),
         stroke = as.numeric(stroke),
         horsepower = as.numeric(horsepower),
         peak_rpm = as.numeric(peak_rpm),
         price = as.numeric(price))
glimpse(df)
#
# NAの行を削除
df <- na.omit(df)
glimpse(df)
#
# symbolingの頻度(分布)
df |> 
  count(symboling) |> 
  ggplot(aes(symboling, n)) +
  geom_col()
#
# symboling と normalized_losses
df |> ggplot(aes(x = normalized_losses, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symmboling と wheel_base
df |> ggplot(aes(x = wheel_base, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と length
df |> ggplot(aes(x = length, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と width
df |> ggplot(aes(x = width, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と height
df |> ggplot(aes(x = height, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と curb_weight
df |> ggplot(aes(x = curb_weight, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と engine_size
df |> ggplot(aes(x = engine_size, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と bore
df |> ggplot(aes(x = bore, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と stroke
df |> ggplot(aes(x = stroke, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と compression_ratio
df |> ggplot(aes(x = compression_ratio, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と horsepower
df |> ggplot(aes(x = horsepower, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と peak_rpm
df |> ggplot(aes(x = peak_rpm, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symbolong と city_mpg
df |> ggplot(aes(x = city_mpg, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symboling と highway_mpg
df |> ggplot(aes(x = highway_mpg, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#
# symbolong と price
df |> ggplot(aes(x = price, y = symboling)) +
  geom_boxplot(aes(group = symboling)) +
  geom_point(size = 2, color = "red") +
  geom_smooth()
#