の続きです。
今回は各変数のヒストグラムを見てみようと思います。ggplot2パッケージの中のgeom_histogram()関数を利用します。
ほとんどの品目は低下価格ですが、6つの品目が高額なため、よくわからないヒストグラムになっています。
dplyrパッケージのarrange関数で高額な品目とその価格を見てみましょう。
ピアノが72万6000円で、ピアノの次が自動車保険料の7万4330円です。自動車保険ってこんなに高いいんですね。自動車に乗らないからわからなかったです。
filter関数でピアノや自動車を除いてから、もう一度ヒストグラムを作ってみます。
だいぶわかりやすくなりました。3万円以下の商品だけにしてヒストグラムを作ってみましょう。
こうしてみると、値段の安いものになるほど、品目が多いですね。
Y202007を対数変換してからヒストグラムを描いてみましょう。mutate関数とlog関数を使います。
ようやく分布の中心に多くの品目が集まるようになりました。
binwidth = 1にしてみます。
color = "white" にして見やすくしました。
Y202006も同じようにヒストグラムにします。
2020年7月とほとんど同じですね。
Y201907も同じようにヒストグラムにします。
こちらも同じような形状です。
続いて、価格の変化率、Month_chgを見てみます。
価格の変化が無い、1.0が圧倒的に多いことがわかります。
Year_chgを見ましょう。
右がわにポツンとあるのは確か、銀行振り込み料金でした。
これを除いてヒストグラムを描いてみましょう。
少しだけ価格が上昇している品目が多いです。
今回は以上です。