UnsplashのEd Robertsonが撮影した写真
の続きです。
前回と同様に、でも今度は2つの変数の組み合わせ別に基本統計量を算出します。
まずは、typeとlocationです。
typeとyearの基本統計量のデータセットを作ります。
三つ目は、locationとyearです。
こんどは、それぞれのデータフレームで、cv(変動係数)が一番大きなもの、小さなものは何かをみてみます。arrange()関数とdesc()関数でcvの大きい順に並び替えます。
秋田の1号が一番変動係数が大きいです。
小さいところは何でしょうか?desc()関数は使わずにarrange()関数だけ使います。
3号の名古屋が一番変動が小さいです。3号が変動が小さくて、1号が変動が大きいことがわかりました。
次は、typeとyearです。
2号の2020年が一番大きいです。2号、3号が変動は大きいのですね。
1号の2002年が一番変動が小さいです。1号、4号が変動は小さいようです。
次はlocationとyearの組み合わせでみてみます。
1997年の那覇が変動が一番大きいです。1997年、1998年、1999年など古い年代が変動が大きいですね。
2020年の津が変動が一番小さいです。2020年、2018年、2019年、2021年など年代の新しい時期は変動が小さいです。
それぞれのデータフレームの変動係数をヒストグラムにしてみます。
山が4つあるような感じです。1号、2号、3号、4号に対応しているのかもしれません。
確認してみます。
たしかに、typeによって、変動係数の分布は違いますね。
次は、stat_by_type_yearの変動係数のヒストグラムです。
やはり、typeによって変動係数の分布は大きく違いますね。
三つ目はstat_by_location_yearです。
右側の裾野が広いですが、これが一番正規分布に近いような感じです。
今回は以上です。
次回は、
です。
初めから読むには、
です。