Bing Image Creator で生成: Close-up of pine cone with blue sky and green meadow in background
の続きです。
前回はデータセットをRにインポートしました。
今回は、数値型のデータと被説明変数のsymbolingとの関係をグラフにしてみます。
その前に、文字列データとして読み込まれたいくつかの変数をas.numeric()関数で数値型データに変換します。
NAの列をna.omit()関数で除外してしまいます。
symbolongの分布をみてみます。geom_histogram()でもいいですが、今回はcount()関数で処理してからgeom_col()関数を使いました。
山型の分布ですね。
それでは、symbolingと他の数値型変数の関係性をみていきましょう。symbolingは数値型データです。数値型データと数値型データの関係性を見るグラフは、散布図ですね。geom_point()関数を使います。
normalized_lossesからみていきましょう。
geom_boxplot()関数で箱ひげ図と、geom_smooth()関数で回帰線を加えてみました。右肩上がりの関係性のようです。
次は、wheel_baseです。
これは、右肩下がりの関係です。
次は、lengthです。
これは右肩下がりの関係です。
次は、widthです。
若干、右肩下がりですね。
次は、heightです。
これは右肩下がりの関係ですね。
次は、curb_weightです。
右肩下がりですね。
次は、engine_sizeです。
下がって、上がってという感じですね。
次は、boreです。
右肩下がりですね。
次は、strokeです。
なんか、右肩下がりでもなく、右肩上がりでもなく、なんかよくわからないですね。
次は、compression_ratioです。
左側のグループと右側のグループにわかれていますね。
次は、horsepowerです。
下がって、上がってという感じです。
次は、peak_rpmです。
上がって、水平という感じです。
次は、city_mpgです。
水平、右肩上がりという感じですね。
次は、highway_mpgです。
少し右肩上がりですね。
最後は、priceです。
水平でしょうか。。
以上、symbolingと数値型データの散布図をみてみました。normalized_lossesやlengthはけっこうはっきりした関係性がありましたね。
今回は以上です。
次回は
です。
初めから読むには、
です。
今回のコードは以下になります。
#
# normalized_losses, bore, stroke, horsepower, peak_rpm, price を数値にする
df <- df_raw |>
mutate(normalized_losses = as.numeric(normalized_losses),
bore = as.numeric(bore),
stroke = as.numeric(stroke),
horsepower = as.numeric(horsepower),
peak_rpm = as.numeric(peak_rpm),
price = as.numeric(price))
glimpse(df)
#
# NAの行を削除
df <- na.omit(df)
glimpse(df)
#
# symbolingの頻度(分布)
df |>
count(symboling) |>
ggplot(aes(symboling, n)) +
geom_col()
#
# symboling と normalized_losses
df |> ggplot(aes(x = normalized_losses, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symmboling と wheel_base
df |> ggplot(aes(x = wheel_base, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と length
df |> ggplot(aes(x = length, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と width
df |> ggplot(aes(x = width, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と height
df |> ggplot(aes(x = height, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と curb_weight
df |> ggplot(aes(x = curb_weight, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と engine_size
df |> ggplot(aes(x = engine_size, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と bore
df |> ggplot(aes(x = bore, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と stroke
df |> ggplot(aes(x = stroke, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と compression_ratio
df |> ggplot(aes(x = compression_ratio, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と horsepower
df |> ggplot(aes(x = horsepower, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と peak_rpm
df |> ggplot(aes(x = peak_rpm, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symbolong と city_mpg
df |> ggplot(aes(x = city_mpg, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symboling と highway_mpg
df |> ggplot(aes(x = highway_mpg, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#
# symbolong と price
df |> ggplot(aes(x = price, y = symboling)) +
geom_boxplot(aes(group = symboling)) +
geom_point(size = 2, color = "red") +
geom_smooth()
#