BIOCLIP: A Vision Foundation Model for the Tree of Life


科学や保存のために画像から生物学的に関連する情報を抽出するための計算手法やツール、特にコンピューター ビジョンが爆発的に増加しています。
これにアプローチするために、私たちは、生物学画像の最大かつ最も多様な ML 対応データセットである TreeOfLife-10M を厳選し、リリースします。
次に、TreeOfLife-10M によって捕捉された生物学のユニークな特性、つまり植物、動物、菌類の画像の豊富さと多様性、および豊富な構造化生物学的知識の利用可能性を活用して、生命の樹の基礎モデルである BioCLIP を開発します。

私たちは、さまざまなきめの細かい生物学分類タスクに対するアプローチを厳密にベンチマークし、BioCLIP が既存のベースラインを一貫して大幅に上回っていることを発見しました (絶対値 17% ~ 20%)。
固有の評価により、BioCLIP が生命の木に準拠した階層表現を学習していることが明らかになり、その強力な一般化可能性が明らかになります。
私たちのコード、モデル、データは で利用できるようになります。


Images of the natural world, collected by a variety of cameras, from drones to individual phones, are increasingly abundant sources of biological information. There is an explosion of computational methods and tools, particularly computer vision, for extracting biologically relevant information from images for science and conservation. Yet most of these are bespoke approaches designed for a specific task and are not easily adaptable or extendable to new questions, contexts, and datasets. A vision model for general organismal biology questions on images is of timely need. To approach this, we curate and release TreeOfLife-10M, the largest and most diverse ML-ready dataset of biology images. We then develop BioCLIP, a foundation model for the tree of life, leveraging the unique properties of biology captured by TreeOfLife-10M, namely the abundance and variety of images of plants, animals, and fungi, together with the availability of rich structured biological knowledge. We rigorously benchmark our approach on diverse fine-grained biology classification tasks, and find that BioCLIP consistently and substantially outperforms existing baselines (by 17% to 20% absolute). Intrinsic evaluation reveals that BioCLIP has learned a hierarchical representation conforming to the tree of life, shedding light on its strong generalizability. Our code, models and data will be made available at


著者 Samuel Stevens,Jiaman Wu,Matthew J Thompson,Elizabeth G Campolongo,Chan Hee Song,David Edward Carlyn,Li Dong,Wasila M Dahdul,Charles Stewart,Tanya Berger-Wolf,Wei-Lun Chao,Yu Su
発行日 2023-11-30 18:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク