www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

小売物価統計調査のデータ分析2 - R言語のggplot2パッケージでヒストグラム、箱ひげ図、信頼区間のグラフを描く。

f:id:cross_hyou:20220402193928j:plain

Photo by Meduana on Unsplash 

www.crosshyou.info

の続きです。

今回は、データの可視化、Visualization をします。

tidyverseパッケージを読み込んで、その中のggplot2でグラフを作ってみます。

f:id:cross_hyou:20220402194415p:plain

まずは、それぞれの変数のヒストグラムをみてみましょうか。

準備段階として、pivot_longer関数でデータフレーム、df_rawをggplot2でグラフを描きやすいロング型のデータフレームにします。

f:id:cross_hyou:20220402195244p:plain

sougou ~ exrent まであった変数をtypeという変数という変数に入れて、値はbukkaという変数に入れました。こうすることでggplot2でグラフが描きやすくなります。

では、ヒストグラムを描きます。まずは、全部のデータ描きます。

f:id:cross_hyou:20220402195800p:plain

f:id:cross_hyou:20220402195811p:plain

100よりちょっと小さいところに山があるヒストグラムですね。

次は、年を横軸に縦軸を物価にして箱ひげ図を描いてみます。

f:id:cross_hyou:20220402200301p:plain

f:id:cross_hyou:20220402200312p:plain

年ごとの違いはあんまり感じないですね。

次は地域別にみてみましょうか。

f:id:cross_hyou:20220402200745p:plain

f:id:cross_hyou:20220402200855p:plain

小さすぎてわからないですが、平均値の大きい順に並べています。

一番が東京で、次が神奈川、関東地方、埼玉、京都と続きます。

物価が安いほうは、一番は鹿児島で、次が群馬、宮崎、岐阜ならと続きます。

年ごとのバラツキは無かったですが、地域ごとのバラツキは結構あるのですね。

次は、物価の種類別のグラフを見てみましょう。

f:id:cross_hyou:20220402201520p:plain

f:id:cross_hyou:20220402201531p:plain

物価の種類ごと箱ひげ図ですが、種類によって大きくバラツキ度合いが違いますね。

house: 住居は平均値は一番低いのに、高いところにもたくさんあります。

iryou: 医療やcom: 交通・通信はバラツキは小さいですね。

いままでの結果をまとめると、年ごとのバラツキは小さいが、地域ごと、物価の種類ごとのバラツキは大きい、ということですね。

年ごとの平均値や標準偏差などを出してみます。

f:id:cross_hyou:20220403081429p:plain

平均値は98.7, 98.8, 98.9の3つの値でほとんど同じですね。

グラフを描いてみます。

f:id:cross_hyou:20220402204456p:plain

f:id:cross_hyou:20220403081522p:plain

geom_errorbar()関数を使って信頼区間のグラフを描きました。

どの年も信頼区間が重なっていますので、年ごとの平均値に有意な違いは無いですね。

同じように、地域別でもグラフにしてみます。

f:id:cross_hyou:20220403081626p:plain

平均値が大きい順に並べて表示しています。東京都、神奈川、関東地方、埼玉、京都、兵庫、大阪と続いています。

これをグラフにします。

f:id:cross_hyou:20220403080506p:plain

f:id:cross_hyou:20220403081732p:plain

東京や神奈川の物価の高さが際立っていることがよくわかります。

最後は種類別の物価の平均値をみてみます。

f:id:cross_hyou:20220403082026p:plain

utility: 光熱・水道費が一番高く、house: 住居が一番低いです。

これをグラフにします。

f:id:cross_hyou:20220403082536p:plain

種類別の物価はそれぞれの水準が大きく違っていて、信頼区間が重なっていないことが多いのですね。

今回は以上です。

次回は

 

www.crosshyou.info

です。

初めから読むには、

 

www.crosshyou.info

です。