の続きです。
今回はウグイスとスズメについて調べてみます。
まずは、ウグイス、スズメだけの作業用のデータフレームを作成します。
ウグイスは124、スズメは121の標本があります。
それでは、都道府県別の標本数を見てみます。table関数を使います。
う~ん、どうなんでしょうか。。正直この表を眺めてもよくわからないですね。
barplot関数を使って棒グラフを描きます。
どうでしょうか?
都道府県の数が多いのでもう少し集約しましょう。
これでもう一度、都道府県別に集約してみます。
これだと、ウグイスは鹿児島が多く、スズメは北海道が多いとわかりますね。
カイ二乗検定をしてみます。chisq.test関数です。
p値が0.005635ですから、ウグイスとスズメでは違いがあるということですね。
上の表のどの箇所が有意に違うのか見てみます。
調整済み残差を見てみます。kaiというカイ二乗検定の結果の中に、stdresという名前で格納されていますので、kai$stdresで呼び出せます。
調整済み残差で見ると、絶対値で2以上のところが統計的に有意な違いがあるところです。その他と北海道ですね。スズメはウグイスと比較すると、北海道で採集された標本が有意に多いということですね。
年別ではどうでしょうか?taable関数です。
この表を見ただけではよくわからないですね。barplot関数を使って棒グラフにしてみます。
棒グラフにしてみました。スズメは1930年代、ウグイスは1970年か80年代に多いような気がします。年代で区切ってみましょう。
round関数で引数を-1にすると一桁上の数で丸めてくれます。-4.9を引いてから一桁上で丸めれば10年ごとの年代別になります。すこしわかりやすくなりました。ウグイスはどの年代にも標本がありますが、スズメは1890年代、1940年代、1980年代は標本がありません。
月別にも集計してみます。
これも一見しただけではよくわからないですね。棒グラフを描きます。
1、2、3月はスズメが多くて、10、11、12月はウグイスが多いようですね。
12か月を1~3、4~9、10~12の3つに分けて集計してみましょう。
こうして3つのカテゴリーにしました。
棒グラフにしてみます。
4月から9月は同じくらいの差で、1、2、3月はスズメ、10、11、12月はウグイスが多いとはっきりわかりますね。この差は有意な差なのか、カイ二乗検定をしてます。
p値が0.0006716です。0.05よりも有意な差があるということですね。
今回は以上です。