BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity

要約

昆虫の生物多様性を理解し監視するための世界的な継続的な取り組みの一環として、この論文では BIOSCAN-5M 昆虫データセットを機械学習コミュニティに提示し、いくつかのベンチマーク タスクを確立します。
BIOSCAN-5M は、500 万を超える昆虫標本のマルチモーダル情報を含む包括的なデータセットであり、分類ラベル、生のヌクレオチド バーコード シーケンス、割り当てられたバーコード インデックス番号、および地理情報を含めることで、既存の画像ベースの生物学的データセットを大幅に拡張します。
マルチモーダル データ タイプが分類とクラスタリングの精度に及ぼす影響を実証するために、3 つのベンチマーク実験を提案します。
まず、\mbox{BIOSCAN-5M} データセットの DNA バーコード シーケンスでマスクされた言語モデルを事前トレーニングし、この大規模な参照ライブラリの使用が種および属レベルの分類パフォーマンスに与える影響を示します。
次に、画像と DNA バーコードにゼロショット転移学習タスクを適用して、自己教師あり学習から得られた特徴埋め込みをクラスター化し、これらの表現埋め込みから意味のあるクラスターを導出できるかどうかを調査することを提案します。
第三に、DNA バーコード、画像データ、分類情報に対して対照学習を実行することで、マルチモダリティのベンチマークを行います。
これにより、複数のタイプの情報とモダリティを使用した分類学的分類を可能にする一般的な共有埋め込み空間が得られます。
BIOSCAN-5M Insect データセットのコード リポジトリは、{\url{https://github.com/zahrag/BIOSCAN-5M}} から入手できます。

要約(オリジナル)

As part of an ongoing worldwide effort to comprehend and monitor insect biodiversity, this paper presents the BIOSCAN-5M Insect dataset to the machine learning community and establish several benchmark tasks. BIOSCAN-5M is a comprehensive dataset containing multi-modal information for over 5 million insect specimens, and it significantly expands existing image-based biological datasets by including taxonomic labels, raw nucleotide barcode sequences, assigned barcode index numbers, and geographical information. We propose three benchmark experiments to demonstrate the impact of the multi-modal data types on the classification and clustering accuracy. First, we pretrain a masked language model on the DNA barcode sequences of the \mbox{BIOSCAN-5M} dataset, and demonstrate the impact of using this large reference library on species- and genus-level classification performance. Second, we propose a zero-shot transfer learning task applied to images and DNA barcodes to cluster feature embeddings obtained from self-supervised learning, to investigate whether meaningful clusters can be derived from these representation embeddings. Third, we benchmark multi-modality by performing contrastive learning on DNA barcodes, image data, and taxonomic information. This yields a general shared embedding space enabling taxonomic classification using multiple types of information and modalities. The code repository of the BIOSCAN-5M Insect dataset is available at {\url{https://github.com/zahrag/BIOSCAN-5M}}

arxiv情報

著者 Zahra Gharaee,Scott C. Lowe,ZeMing Gong,Pablo Millan Arias,Nicholas Pellegrino,Austin T. Wang,Joakim Bruslund Haurum,Iuliia Zarubiieva,Lila Kari,Dirk Steinke,Graham W. Taylor,Paul Fieguth,Angel X. Chang
発行日 2024-06-18 15:45:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク