BioCLIP: A Vision Foundation Model for the Tree of Life

要約

ドローンから個人の携帯電話まで、さまざまなカメラで収集された自然界の画像は、生物学的情報のますます豊富な情報源となっている。科学や保全のために画像から生物学的に関連する情報を抽出するための計算手法やツール、特にコンピュータ・ビジョンが爆発的に普及している。しかし、これらのほとんどは、特定のタスクのために設計された特注のアプローチであり、新しい質問、コンテキスト、データセットに容易に適応したり拡張したりすることはできない。画像から一般的な生物学的疑問を解決するためのビジョンモデルが、今まさに求められている。この課題にアプローチするために、我々は、生物学画像の最大かつ最も多様なML対応データセットであるTreeOfLife-10Mをキュレーションし、公開する。TreeOfLife-10Mは、植物、動物、真菌の豊富で多様な画像と、豊富な構造化された生物学的知識が利用可能である。様々な細かい生物学分類タスクで我々のアプローチを厳密にベンチマークし、BioCLIPが既存のベースラインを一貫して大幅に上回る(絶対値で17%から20%)ことを発見した。本質的な評価により、BioCLIPが生命の木に適合した階層的表現を学習していることが明らかになり、BioCLIPの強力な汎用性が明らかになった。我々のコード、モデル、データはhttps://github.com/Imageomics/bioclip。

要約(オリジナル)

Images of the natural world, collected by a variety of cameras, from drones to individual phones, are increasingly abundant sources of biological information. There is an explosion of computational methods and tools, particularly computer vision, for extracting biologically relevant information from images for science and conservation. Yet most of these are bespoke approaches designed for a specific task and are not easily adaptable or extendable to new questions, contexts, and datasets. A vision model for general organismal biology questions on images is of timely need. To approach this, we curate and release TreeOfLife-10M, the largest and most diverse ML-ready dataset of biology images. We then develop BioCLIP, a foundation model for the tree of life, leveraging the unique properties of biology captured by TreeOfLife-10M, namely the abundance and variety of images of plants, animals, and fungi, together with the availability of rich structured biological knowledge. We rigorously benchmark our approach on diverse fine-grained biology classification tasks, and find that BioCLIP consistently and substantially outperforms existing baselines (by 17% to 20% absolute). Intrinsic evaluation reveals that BioCLIP has learned a hierarchical representation conforming to the tree of life, shedding light on its strong generalizability. Our code, models and data will be made available at https://github.com/Imageomics/bioclip.

arxiv情報

著者 Samuel Stevens,Jiaman Wu,Matthew J Thompson,Elizabeth G Campolongo,Chan Hee Song,David Edward Carlyn,Li Dong,Wasila M Dahdul,Charles Stewart,Tanya Berger-Wolf,Wei-Lun Chao,Yu Su
発行日 2023-12-04 16:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク