Rで何かをしたり、読書をするブログ

政府統計の総合窓口のデータや、OECDやUCIやのデータを使って、Rの練習をしています。ときどき、読書記録も載せています。

国立科学博物館の標本データベースの日本の鳥類の標本の分析1 - メジロの標本、北海道の標本、1930年代の標本が一番多い。

国立科学博物館の標本データベースからCSVファイルをダウンロードできることを発見しましたので、データをダウンロードして遊んでみようと思います。

f:id:cross_hyou:20191123150934p:plain

詳細検索(鳥類) | 標本・資料統合データベース

から日本の標本を検索してみました。

f:id:cross_hyou:20191123151100p:plain

こんなCSVファイルがダウンロードできます。

f:id:cross_hyou:20191123151132p:plain

もとのファイルからいらない列を削除してこのようなファイルにしました。

これをread.csv関数でR言語で読み込んで分析というか、どんな鳥の標本が多いのか、都道府県はどこが多いかなどを調べます。

f:id:cross_hyou:20191123151839p:plain

まずは、Name, 和名が何種類あるか調べましょう。table関数とlength関数です。

f:id:cross_hyou:20191123152044p:plain

409種類です!思ったよりも多いです。どの種類が多いのか調べてみます。

f:id:cross_hyou:20191123152504p:plain

tapply関数でNameのデータ数をName別にlength関数で数えました。

メジロの標本が215で一番多いのですね。ヒヨドリが189個、ウグイスが124、スズメが121、アオジが119、カワラヒワが118です。アオジって初めて聞きました。スズメよりちょっと大きい鳥だそうです。

都道府県ではどこが多いでしょうか?summary関数で見てみます。

f:id:cross_hyou:20191123153345p:plain

 

あら、空白や、ーや、なし、というのや香川県?とか伊豆諸島とか小笠原諸島とかありますね。こういうのを整理しましょう。

まず、levelの確認をします。

f:id:cross_hyou:20191123154340p:plain

1番目が空白、2番目がー、3番目がなし、53番目が福岡県or佐賀県です。これを不明にしましょう。

f:id:cross_hyou:20191123154906p:plain

伊豆諸島を静岡県に、小笠原諸島を東京都に、大阪を大阪府にします。

f:id:cross_hyou:20191123155803p:plain

香川県?、青森県?、福岡県?をそれぞれ修正します。

f:id:cross_hyou:20191123160343p:plain

47都道府県と不明の合わせて48のlevelになりました。

それでは、都道府県ではどこが標本多いか見てみましょう。

f:id:cross_hyou:20191123160631p:plain

北海道の標本が1203で一番多いです。2番は東京都で819です。3番が長野県で812、4番が宮城県で800、不明が5番目で750です。山口は1つ、広島は2つなどわかりました。

年も調べましょう。

f:id:cross_hyou:20191123160924p:plain

年は1869年から2018年までです。NAは484ですね。

数値データなので、ヒストグラムでみてみましょう。

f:id:cross_hyou:20191123161409p:plain

f:id:cross_hyou:20191123161421p:plain

1930年代の標本が一番多いようです。度数分布表で確認しましょう。

以前作った、度数分布表の自作関数を使います。

f:id:cross_hyou:20191123161747p:plain

こういう関数ですね。最小値、最大値、幅を入力します。

Yearは1869年から2018年までなので、最小値を1860, 最大値を2020, 幅を10にします。

f:id:cross_hyou:20191123162105p:plain

1930年代が1番多くて1477、1920年代が1259で2番、1950年代が3番で953、2000年代が4番で949、5番目が1970年代の765です。

今回は以上です。