crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

都道府県別の保護統計調査のデータの分析3 - R言語のggplot()+geom_histogram()でヒストグラムを描く

UnsplashEd Robertsonが撮影した写真 

 

www.crosshyou.info

の続きです。

前回と同様に、でも今度は2つの変数の組み合わせ別に基本統計量を算出します。

まずは、typeとlocationです。

 

typeとyearの基本統計量のデータセットを作ります。

 

三つ目は、locationとyearです。

こんどは、それぞれのデータフレームで、cv(変動係数)が一番大きなもの、小さなものは何かをみてみます。arrange()関数とdesc()関数でcvの大きい順に並び替えます。

秋田の1号が一番変動係数が大きいです。

小さいところは何でしょうか?desc()関数は使わずにarrange()関数だけ使います。

3号の名古屋が一番変動が小さいです。3号が変動が小さくて、1号が変動が大きいことがわかりました。

次は、typeとyearです。

2号の2020年が一番大きいです。2号、3号が変動は大きいのですね。

1号の2002年が一番変動が小さいです。1号、4号が変動は小さいようです。

次はlocationとyearの組み合わせでみてみます。

1997年の那覇が変動が一番大きいです。1997年、1998年、1999年など古い年代が変動が大きいですね。

2020年の津が変動が一番小さいです。2020年、2018年、2019年、2021年など年代の新しい時期は変動が小さいです。

それぞれのデータフレームの変動係数をヒストグラムにしてみます。

山が4つあるような感じです。1号、2号、3号、4号に対応しているのかもしれません。

確認してみます。

たしかに、typeによって、変動係数の分布は違いますね。

次は、stat_by_type_yearの変動係数のヒストグラムです。

やはり、typeによって変動係数の分布は大きく違いますね。

三つ目はstat_by_location_yearです。

右側の裾野が広いですが、これが一番正規分布に近いような感じです。

今回は以上です。

次回は、

www.crosshyou.info

です。

 

初めから読むには、

www.crosshyou.info

です。