国立科学博物館の標本データベースからCSVファイルをダウンロードできることを発見しましたので、データをダウンロードして遊んでみようと思います。
から日本の標本を検索してみました。
こんなCSVファイルがダウンロードできます。
もとのファイルからいらない列を削除してこのようなファイルにしました。
これをread.csv関数でR言語で読み込んで分析というか、どんな鳥の標本が多いのか、都道府県はどこが多いかなどを調べます。
まずは、Name, 和名が何種類あるか調べましょう。table関数とlength関数です。
409種類です!思ったよりも多いです。どの種類が多いのか調べてみます。
tapply関数でNameのデータ数をName別にlength関数で数えました。
メジロの標本が215で一番多いのですね。ヒヨドリが189個、ウグイスが124、スズメが121、アオジが119、カワラヒワが118です。アオジって初めて聞きました。スズメよりちょっと大きい鳥だそうです。
都道府県ではどこが多いでしょうか?summary関数で見てみます。
あら、空白や、ーや、なし、というのや香川県?とか伊豆諸島とか小笠原諸島とかありますね。こういうのを整理しましょう。
まず、levelの確認をします。
1番目が空白、2番目がー、3番目がなし、53番目が福岡県or佐賀県です。これを不明にしましょう。
伊豆諸島を静岡県に、小笠原諸島を東京都に、大阪を大阪府にします。
香川県?、青森県?、福岡県?をそれぞれ修正します。
47都道府県と不明の合わせて48のlevelになりました。
それでは、都道府県ではどこが標本多いか見てみましょう。
北海道の標本が1203で一番多いです。2番は東京都で819です。3番が長野県で812、4番が宮城県で800、不明が5番目で750です。山口は1つ、広島は2つなどわかりました。
年も調べましょう。
年は1869年から2018年までです。NAは484ですね。
数値データなので、ヒストグラムでみてみましょう。
1930年代の標本が一番多いようです。度数分布表で確認しましょう。
以前作った、度数分布表の自作関数を使います。
こういう関数ですね。最小値、最大値、幅を入力します。
Yearは1869年から2018年までなので、最小値を1860, 最大値を2020, 幅を10にします。
1930年代が1番多くて1477、1920年代が1259で2番、1950年代が3番で953、2000年代が4番で949、5番目が1970年代の765です。
今回は以上です。