www.crosshyou.info

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

都道府県別の保護統計調査のデータの分析３ - R言語のggplot()+geom_histogram()でヒストグラムを描く

データ分析

UnsplashのEd Robertsonが撮影した写真

www.crosshyou.info

の続きです。

前回と同様に、でも今度は2つの変数の組み合わせ別に基本統計量を算出します。

まずは、typeとlocationです。

typeとyearの基本統計量のデータセットを作ります。

三つ目は、locationとyearです。

こんどは、それぞれのデータフレームで、cv(変動係数)が一番大きなもの、小さなものは何かをみてみます。arrange()関数とdesc()関数でcvの大きい順に並び替えます。

秋田の１号が一番変動係数が大きいです。

小さいところは何でしょうか？desc()関数は使わずにarrange()関数だけ使います。

３号の名古屋が一番変動が小さいです。３号が変動が小さくて、１号が変動が大きいことがわかりました。

次は、typeとyearです。

２号の2020年が一番大きいです。２号、３号が変動は大きいのですね。

１号の２００２年が一番変動が小さいです。1号、4号が変動は小さいようです。

次はlocationとyearの組み合わせでみてみます。

1997年の那覇が変動が一番大きいです。1997年、1998年、1999年など古い年代が変動が大きいですね。

2020年の津が変動が一番小さいです。2020年、2018年、2019年、2021年など年代の新しい時期は変動が小さいです。

それぞれのデータフレームの変動係数をヒストグラムにしてみます。

山が4つあるような感じです。１号、２号、３号、４号に対応しているのかもしれません。

確認してみます。

たしかに、typeによって、変動係数の分布は違いますね。

次は、stat_by_type_yearの変動係数のヒストグラムです。

やはり、typeによって変動係数の分布は大きく違いますね。

三つ目はstat_by_location_yearです。

右側の裾野が広いですが、これが一番正規分布に近いような感じです。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。