A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect Dataset

要約

昆虫の生物多様性をカタログ化する取り組みにおいて、私たちは手動でラベル付けされた昆虫画像の新しい大規模なデータセットである BIOSCAN-Insect データセットを提案します。
各記録は専門家によって分類学的に分類されており、生のヌクレオチド バーコード シーケンスや割り当てられたバーコード インデックス番号などの関連遺伝情報も含まれており、これらは種分類の遺伝ベースの代用となります。
この論文では、主に画像ベースの分類学的評価を提供できるコンピューター ビジョン モデルをトレーニングするために厳選された 100 万枚の画像データセットを紹介しますが、このデータセットは魅力的な特徴も示しており、その研究はより広範な機械学習コミュニティにとって興味深いものとなるでしょう。
データセットに固有の生物学的性質によって引き起こされ、特徴的なロングテールのクラス不均衡分布が示されます。
さらに、分類学的ラベル付けは階層的な分類スキームであり、下位レベルでは非常にきめの細かい分類問題が発生します。
機械学習コミュニティ内で生物多様性研究への関心を高めるだけでなく、画像ベースの分類分類器の作成の進歩は、すべての BIOSCAN 研究の最終目標である地球規模の生物多様性の包括的な調査の基礎を築くという目標も促進します。
このペーパーでは、データセットを紹介し、ベースライン分類器の実装と分析を通じて分類タスクを検討します。

要約(オリジナル)

In an effort to catalog insect biodiversity, we propose a new large dataset of hand-labelled insect images, the BIOSCAN-Insect Dataset. Each record is taxonomically classified by an expert, and also has associated genetic information including raw nucleotide barcode sequences and assigned barcode index numbers, which are genetically-based proxies for species classification. This paper presents a curated million-image dataset, primarily to train computer-vision models capable of providing image-based taxonomic assessment, however, the dataset also presents compelling characteristics, the study of which would be of interest to the broader machine learning community. Driven by the biological nature inherent to the dataset, a characteristic long-tailed class-imbalance distribution is exhibited. Furthermore, taxonomic labelling is a hierarchical classification scheme, presenting a highly fine-grained classification problem at lower levels. Beyond spurring interest in biodiversity research within the machine learning community, progress on creating an image-based taxonomic classifier will also further the ultimate goal of all BIOSCAN research: to lay the foundation for a comprehensive survey of global biodiversity. This paper introduces the dataset and explores the classification task through the implementation and analysis of a baseline classifier.

arxiv情報

著者 Zahra Gharaee,ZeMing Gong,Nicholas Pellegrino,Iuliia Zarubiieva,Joakim Bruslund Haurum,Scott C. Lowe,Jaclyn T. A. McKeown,Chris C. Y. Ho,Joschka McLeod,Yi-Yun C Wei,Jireh Agda,Sujeevan Ratnasingham,Dirk Steinke,Angel X. Chang,Graham W. Taylor,Paul Fieguth
発行日 2023-11-13 18:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク