要約
INQUIRE は、専門家レベルのクエリでマルチモーダルなビジョン言語モデルに挑戦するように設計されたテキストから画像への検索ベンチマークです。
INQUIRE には、500 万枚の自然界画像の新しいデータセットである iNaturalist 2024 (iNat24) と、250 の専門家レベルの検索クエリが含まれています。
これらのクエリは、iNat24 内で包括的にラベル付けされたすべての関連画像とペアになっており、合計 33,000 件の一致が含まれます。
クエリは種の識別、コンテキスト、行動、外観などのカテゴリにまたがり、微妙な画像の理解と専門知識を必要とするタスクに重点が置かれます。
私たちのベンチマークは、2 つのコア検索タスク (1) INQUIRE-Fullrank (完全なデータセット ランキング タスク)、および (2) INQUIRE-Rerank (上位 100 件の検索を絞り込むための再ランキング タスク) を評価します。
最近のさまざまなマルチモーダル モデルを詳細に評価したところ、INQUIRE には重大な課題があり、最良のモデルでも 50% を超える mAP@50 を達成できないことがわかりました。
さらに、より強力なマルチモーダル モデルを使用して再ランキングすると検索パフォーマンスが向上する可能性がありますが、改善の余地は依然として大きいことを示します。
INQUIRE は、科学的に動機づけられた生態学的課題に焦点を当てることで、AI の能力と現実世界の科学的調査のニーズとの間のギャップを埋め、生態学的および生物多様性の研究の加速を支援できる検索システムの開発を促進することを目指しています。
データセットとコードは https://inquire-benchmark.github.io で入手できます。
要約(オリジナル)
We introduce INQUIRE, a text-to-image retrieval benchmark designed to challenge multimodal vision-language models on expert-level queries. INQUIRE includes iNaturalist 2024 (iNat24), a new dataset of five million natural world images, along with 250 expert-level retrieval queries. These queries are paired with all relevant images comprehensively labeled within iNat24, comprising 33,000 total matches. Queries span categories such as species identification, context, behavior, and appearance, emphasizing tasks that require nuanced image understanding and domain expertise. Our benchmark evaluates two core retrieval tasks: (1) INQUIRE-Fullrank, a full dataset ranking task, and (2) INQUIRE-Rerank, a reranking task for refining top-100 retrievals. Detailed evaluation of a range of recent multimodal models demonstrates that INQUIRE poses a significant challenge, with the best models failing to achieve an mAP@50 above 50%. In addition, we show that reranking with more powerful multimodal models can enhance retrieval performance, yet there remains a significant margin for improvement. By focusing on scientifically-motivated ecological challenges, INQUIRE aims to bridge the gap between AI capabilities and the needs of real-world scientific inquiry, encouraging the development of retrieval systems that can assist with accelerating ecological and biodiversity research. Our dataset and code are available at https://inquire-benchmark.github.io
arxiv情報
著者 | Edward Vendrow,Omiros Pantazis,Alexander Shepard,Gabriel Brostow,Kate E. Jones,Oisin Mac Aodha,Sara Beery,Grant Van Horn |
発行日 | 2024-11-11 18:49:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google