crosshyou

主にクロス表(分割表)分析をしようかなと思いはじめましたが、あまりクロス表の分析はできず。R言語の練習ブログになっています。

国立科学博物館の標本データベースの日本の鳥類の標本の分析2 - 月と日付のデータを整える。8月に採取された標本が一番少ない。

 

www.crosshyou.info

 の続きです。今日は月と日付のデータを整えます。

Monthを確認します。

f:id:cross_hyou:20191128191015p:plain

空白、**, 20は明らかにおかしいですね。NAにします。空白は1番目、**は2番目、20は8番目です。

f:id:cross_hyou:20191128191352p:plain

こうして1から12までにしました。これを文字列型にしてから数値型にします。

f:id:cross_hyou:20191128191640p:plain

summaryの結果が度数表ではなく、平均値などになっています。数値型になりました。

Dayも同じようにして整えます。

f:id:cross_hyou:20191128191911p:plain

Dayにも空白と**がありますね。これをNAにします。

f:id:cross_hyou:20191128192118p:plain

はい、空白と**がなくなりました。これを同じように文字列に変換して数値型に変換します。

f:id:cross_hyou:20191128192602p:plain

はい。できました。

それではMonthをヒストグラムにしてどの月に採集された標本が多いか調べます。

自作したdosuu関数を使います。

f:id:cross_hyou:20191128193816p:plain

f:id:cross_hyou:20191128193827p:plain
10月、11月、7月が多いですね。8月が一番少ないです。8月は夏休みだからみんな採集に出かけるかと思っていましたがそうじゃないんでしょうか?

Dayもヒストグラムで見てみましょう。自作したdosuu関数を使います。

f:id:cross_hyou:20191128193529p:plain

f:id:cross_hyou:20191128193543p:plain

バラバラって感じですね。

今回は以上です。