CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale

要約

生物多様性の測定は、生態系の健全性を理解するために非常に重要です。
これまでの研究では、写真画像と DNA の分類学的分類のための機械学習モデルを個別に開発していましたが、この研究では、CLIP スタイルの対照学習を使用して、画像、バーコード DNA、および分類学のテキストベースの表現を位置合わせする、両方を組み合わせたマルチモーダル アプローチを導入します。
統一された埋め込みスペース内のラベル。
これにより、タスク固有の微調整を行うことなく、DNA と画像データを融合する初めての対照学習を活用して、既知の昆虫種と未知の昆虫種の両方を正確に分類することができます。
私たちの方法は、ゼロショット学習タスクにおいて精度において以前の単一モダリティアプローチを 8% 以上上回り、生物多様性研究におけるその有効性を示しています。

要約(オリジナル)

Measuring biodiversity is crucial for understanding ecosystem health. While prior works have developed machine learning models for taxonomic classification of photographic images and DNA separately, in this work, we introduce a multimodal approach combining both, using CLIP-style contrastive learning to align images, barcode DNA, and text-based representations of taxonomic labels in a unified embedding space. This allows for accurate classification of both known and unknown insect species without task-specific fine-tuning, leveraging contrastive learning for the first time to fuse DNA and image data. Our method surpasses previous single-modality approaches in accuracy by over 8% on zero-shot learning tasks, showcasing its effectiveness in biodiversity studies.

arxiv情報

著者 ZeMing Gong,Austin T. Wang,Xiaoliang Huo,Joakim Bruslund Haurum,Scott C. Lowe,Graham W. Taylor,Angel X. Chang
発行日 2024-11-06 15:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク