Photo by Tim Mossholder on Unsplash
の続きです。
今回はriyou以外の各変数の分布をみてみます。
まずは、mitsudo: 可住地面積1平方キロメートル当たりの人数、つまり人口密度です。
右のほうに外れ値っぽい分布があるのがわかります。
対数変換してヒストグラムを描いてみます。
対数変換した値のほうが左右対称に近い分布になりますね。
データ分析するときは、左右対称の分布のほうが扱いやすいです。
skewという値を計算して分布の左右対称度合いを測ります。
まず、skewを計算する自作関数を作ります。
この自作関数でmitsudoとlog(mitsudo)のskewを計算します。
対数変換したmitsudoのほうが0に近いので左右対称に近いです。
対数変換したmitsudoをデータフレームに追加します。
続いて、shotoku: 1人当たり県民所得(千円)のヒストグラムを描いてみます。
これも右のほうに外れ値のようなものがありますね。
対数変換したshotokuのヒストグラムを描いてみます。
少しはましになったかな?
skewを計算してみます。
対数変換したshotokuのほうが0に近いので、より左右対称に近いということです。
対数変換したshotokuをデータフレームに追加します。
iryou: 1人当たり医療費(千円)のヒストグラムを描いてみます。
これは前の2つと比べると左右対称に近いですね。
対数変換したiryouのヒストグラムを描いてみます。
これも左右対称に近いですね。
見た目ではそのままのiryouと対数変換したiryouのどちらが左右対称に近いか判断できないです。skewを計算してみます。
対数変換したiryouのほうが0に近いです。
対数変換したiryouをデータフレームに追加します。
今回は以上です。
次回は
です。
はじめから読むには
です。