の続きです。
今回は、データの可視化、Visualization をします。
tidyverseパッケージを読み込んで、その中のggplot2でグラフを作ってみます。
まずは、それぞれの変数のヒストグラムをみてみましょうか。
準備段階として、pivot_longer関数でデータフレーム、df_rawをggplot2でグラフを描きやすいロング型のデータフレームにします。
sougou ~ exrent まであった変数をtypeという変数という変数に入れて、値はbukkaという変数に入れました。こうすることでggplot2でグラフが描きやすくなります。
では、ヒストグラムを描きます。まずは、全部のデータ描きます。
100よりちょっと小さいところに山があるヒストグラムですね。
次は、年を横軸に縦軸を物価にして箱ひげ図を描いてみます。
年ごとの違いはあんまり感じないですね。
次は地域別にみてみましょうか。
小さすぎてわからないですが、平均値の大きい順に並べています。
一番が東京で、次が神奈川、関東地方、埼玉、京都と続きます。
物価が安いほうは、一番は鹿児島で、次が群馬、宮崎、岐阜ならと続きます。
年ごとのバラツキは無かったですが、地域ごとのバラツキは結構あるのですね。
次は、物価の種類別のグラフを見てみましょう。
物価の種類ごと箱ひげ図ですが、種類によって大きくバラツキ度合いが違いますね。
house: 住居は平均値は一番低いのに、高いところにもたくさんあります。
iryou: 医療やcom: 交通・通信はバラツキは小さいですね。
いままでの結果をまとめると、年ごとのバラツキは小さいが、地域ごと、物価の種類ごとのバラツキは大きい、ということですね。
年ごとの平均値や標準偏差などを出してみます。
平均値は98.7, 98.8, 98.9の3つの値でほとんど同じですね。
グラフを描いてみます。
geom_errorbar()関数を使って信頼区間のグラフを描きました。
どの年も信頼区間が重なっていますので、年ごとの平均値に有意な違いは無いですね。
同じように、地域別でもグラフにしてみます。
平均値が大きい順に並べて表示しています。東京都、神奈川、関東地方、埼玉、京都、兵庫、大阪と続いています。
これをグラフにします。
東京や神奈川の物価の高さが際立っていることがよくわかります。
最後は種類別の物価の平均値をみてみます。
utility: 光熱・水道費が一番高く、house: 住居が一番低いです。
これをグラフにします。
種類別の物価はそれぞれの水準が大きく違っていて、信頼区間が重なっていないことが多いのですね。
今回は以上です。
次回は
です。
初めから読むには、
です。