
Bing Image Creator で生成: Close-up of pine cone with blue sky and green meadow in background
の続きです。
前回はデータセットをRにインポートしました。
今回は、数値型のデータと被説明変数のsymbolingとの関係をグラフにしてみます。
その前に、文字列データとして読み込まれたいくつかの変数をas.numeric()関数で数値型データに変換します。

NAの列をna.omit()関数で除外してしまいます。

symbolongの分布をみてみます。geom_histogram()でもいいですが、今回はcount()関数で処理してからgeom_col()関数を使いました。


山型の分布ですね。
それでは、symbolingと他の数値型変数の関係性をみていきましょう。symbolingは数値型データです。数値型データと数値型データの関係性を見るグラフは、散布図ですね。geom_point()関数を使います。
normalized_lossesからみていきましょう。


geom_boxplot()関数で箱ひげ図と、geom_smooth()関数で回帰線を加えてみました。右肩上がりの関係性のようです。
次は、wheel_baseです。


これは、右肩下がりの関係です。
次は、lengthです。


これは右肩下がりの関係です。
次は、widthです。


若干、右肩下がりですね。
次は、heightです。


これは右肩下がりの関係ですね。
次は、curb_weightです。


右肩下がりですね。
次は、engine_sizeです。


下がって、上がってという感じですね。
次は、boreです。


右肩下がりですね。
次は、strokeです。


なんか、右肩下がりでもなく、右肩上がりでもなく、なんかよくわからないですね。
次は、compression_ratioです。


左側のグループと右側のグループにわかれていますね。
次は、horsepowerです。


下がって、上がってという感じです。
次は、peak_rpmです。


上がって、水平という感じです。
次は、city_mpgです。


水平、右肩上がりという感じですね。
次は、highway_mpgです。


少し右肩上がりですね。
最後は、priceです。


水平でしょうか。。
以上、symbolingと数値型データの散布図をみてみました。normalized_lossesやlengthはけっこうはっきりした関係性がありましたね。
今回は以上です。
次回は
です。
初めから読むには、
です。
今回のコードは以下になります。
#
# normalized_losses, bore, stroke, horsepower, peak_rpm, price を数値にする
df <- df_raw |>
mutate(normalized_losses = as.numeric(normalized_losses),
bore = as.numeric(bore),
stroke = as.numeric(stroke),
horsepower = as.numeric(horsepower),
peak_rpm = as.numeric(peak_rpm),
price = as.numeric(price))
glimpse(df)
#
# NAの行を削除
df <- na.omit(df)
glimpse(df)
#
# symbolingの頻度(分布)
df |>
count(symboling) |>
ggplot(aes(symboling, n)) +
geom_col()
#
# symboling と normalized_losses
df |> ggplot(aes(x = normalized_losses, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symmboling と wheel_base
df |> ggplot(aes(x = wheel_base, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と length
df |> ggplot(aes(x = length, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と width
df |> ggplot(aes(x = width, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と height
df |> ggplot(aes(x = height, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と curb_weight
df |> ggplot(aes(x = curb_weight, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と engine_size
df |> ggplot(aes(x = engine_size, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と bore
df |> ggplot(aes(x = bore, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と stroke
df |> ggplot(aes(x = stroke, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と compression_ratio
df |> ggplot(aes(x = compression_ratio, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と horsepower
df |> ggplot(aes(x = horsepower, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と peak_rpm
df |> ggplot(aes(x = peak_rpm, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symbolong と city_mpg
df |> ggplot(aes(x = city_mpg, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と highway_mpg
df |> ggplot(aes(x = highway_mpg, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symbolong と price
df |> ggplot(aes(x = price, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#