Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

全国主要都市の交通事故と犯罪発生件数のデータ分析２ - R言語のgeom_bar関数で棒グラフ、geom_histogram関数でヒストグラムを作成。

データ分析

www.crosshyou.info

の続きです。

今回はデータをグラフにしてどんなもんか見てみたいと思います。

glimpse関数で変数名をデータの内容を確認します。

f:id:cross_hyou:20201201195358p:plain

glimpse関数はstr関数と同じような働きをします。

prefのデータは都道府県ですね。各都道府県でデータの数に違いがあるのでしょうか？

f:id:cross_hyou:20201201201429p:plain

1行目は都道府県の数をtable関数で作成して、as.data.frame関数でデータフレームにしています。

2行目のmutateはprefという変数とnという変数を作成しています。

3行目のggplotでggplotのオブジェクトを作成して、

geom_barで棒グラフを作り、

coord_flipで縦軸と横軸を反転させて、

themeで軸のラベルの文字の大きさを調整しています。

そして、できたグラフがこちら、

f:id:cross_hyou:20201201201416p:plain

東京は23区の他に立川市とかありますから数が多いです。京都府が一番少ないです。

cityはスキップして、regionも同じようにしてみます。

f:id:cross_hyou:20201201202439p:plain

こんどはgroup_byでregionごとにして、

summarise関数でregionの数を数え、

mutate関数の中でreorder関数で数の多い順にregionを並び替えてから

ggplot以下で棒グラフを作りました。

できたグラフがこれです。

f:id:cross_hyou:20201201202616p:plain

関東が一番多く、四国が一番少ないです。

eastwest(東日本と西日本)も同じようにします。

f:id:cross_hyou:20201201202954p:plain

f:id:cross_hyou:20201201203009p:plain

西日本のほうが東日本よりも多いです。

japanpacific(日本海側、太平洋側、その他)はどうでしょうか？

f:id:cross_hyou:20201201203329p:plain

f:id:cross_hyou:20201201203347p:plain

太平洋側が多く、日本海側が少ないです。

yearはどうでしょうか？

yearから後の変数は全部、数値データなので、ヒストグラムで見てみましょう。

f:id:cross_hyou:20201201203743p:plain

f:id:cross_hyou:20201201203804p:plain

どの年も同じ数だけデータがあるのではなくて、バラツキがあります。2015年が一番多く、1985年が一番少ないです。

koutuu(10万人当りの交通事故件数)はどうでしょうか？

f:id:cross_hyou:20201201204038p:plain

f:id:cross_hyou:20201201204057p:plain

大きな外れ値がありますね。

X軸を対数にしてヒストグラムを描きます。

f:id:cross_hyou:20201201204540p:plain

scale_x_continuous(trans = "log10")でX軸が対数になります。

f:id:cross_hyou:20201201204622p:plain

左右対称に近づきました。

keihou(人口千人当りの刑法犯認知件数)のヒストグラムです。

f:id:cross_hyou:20201201204939p:plain

f:id:cross_hyou:20201201204955p:plain

keihouもkoutuuと同じく大きな外れ値があります。

こんどは軸を対数にするのではなくて、値そのものを対数変換してからヒストグラムにしてみます。

f:id:cross_hyou:20201201205305p:plain

f:id:cross_hyou:20201201205320p:plain

keihouのほうがkoutuuよりも右側に分布が広がっているようですね。

今回は以上です。