
の続きです。
今回は各変数のヒストグラムを描いて、どんな感じの分布なのかを確認します。
まずは、人口密度からです。


人口密度の低い都市が多い分布ですね。
ここで、geom_histogram(color = "white", bins = 20)のところは何度も使うので、自作関数にしておきます。

人口密度の対数値でヒストグラムを描いてみます。


対数にした人口密度のほうが、まんべんなく散らばっていますね。こっちのほうが後で分析しやすい感じなので、対数変換した人口密度を作成しておきます。

次は、昼夜人口比率のヒストグラムを描きます。


これも値の低いものが大半です。対数変換した分布はいかがでしょうか?


あんまり形状は変わらないですが、これも対数変換した値を作成しておきましょう。

次は、商品販売額です。


商品販売額も左のほうに偏った分布です。対数変換した値でもヒストグラムを描いてみます。


対数変換した値のほうが正規分布に近い形状ですね。商品販売額も対数変換した値を作成しておきます。

最後は課税所得のヒストグラムです。


課税所得も対数変換したほうがよさそうですね。


課税所得も対数変換したものを作成します。

最後に原数値どうしの相関マトリックス、対数変換した値どうしの相関マトリックスを見比べてみます。

昼夜人口比率と商品販売額、商品販売額と課税所得のペアは原数値のほうが相関係数が高いですが、他のペアは対数変換した値のほうが相関係数が高いですね。
今回は以上です。
次回は
です。
はじめから読むには、
です。
今回のコードは以下になります。
#
# mitsudoの分布
df |>
ggplot(aes(x = mitsudo)) +
geom_histogram(color = "white",
bins = 20)
#
# geom_histgram()のとこだけ関数にする
my_hist <- function(bins = 20) {
geom_histogram(color = "white", bins = bins)
}
#
# log(mitsudo)の分布
df |>
ggplot(aes(x = log(mitsudo))) +
my_hist()
#
# log(mitsudo)を作成
df <- df |>
mutate(l_mitsudo = log(mitsudo))
#
# daynightの分布
df |>
ggplot(aes(x = daynight)) +
my_hist()
#
# log(daynight)の分布
df |>
ggplot(aes(x = log(daynight))) +
my_hist()
#
# log(daynight)を作成
df <- df |>
mutate(l_daynight = log(daynight))
#
# hanbaiの分布
df |>
ggplot(aes(x = hanbai)) +
my_hist()
#
# log(hanbai)の分布
df |>
ggplot(aes(x = log(hanbai))) +
my_hist()
#
# log(hanbai)を作成
df <- df |>
mutate(l_hanbai = log(hanbai))
#
# taxの分布
df |>
ggplot(aes(x = tax)) +
my_hist()
#
# log(tax)の分布
df |>
ggplot(aes(x = log(tax))) +
my_hist()
#
# log(tax)を作成
df <- df |>
mutate(l_tax = log(tax))
#
# 原数値の相関マトリックス
df |>
select(mitsudo, daynight, hanbai, tax) |>
cor() |> round(3)
#
# 対数変換した値の相関マトリックス
df |>
select(l_mitsudo, l_daynight, l_hanbai, l_tax) |>
cor() |> round(3)
#
(冒頭の画像は、Bing Image Creator で生成しました。プロンプトは Close up of a lot of beautiful cosmos flowers, PHOTO です。)