要約
AIモデルの信頼できる評価は、科学的進歩と実用的な応用にとって重要です。
既存のVLMベンチマークはモデル機能に関する一般的な洞察を提供しますが、それらの不均一な設計といくつかのイメージングドメインへの焦点が限られていることは、クロスドメインのパフォーマンス比較とターゲットを絞ったドメイン固有の評価の両方に大きな課題をもたらします。
これに対処するために、3つの重要な貢献を提案します。(1)単一の既存のタスクから複数の多様なタスクを作成するためにタスクの増強によって有効になったドメイン固有のVLMベンチマークのリソース効率の高い作成のフレームワーク、(2)新しいVLMのリリース
同じ均一なプロトコルに従って作成された7つのドメインのベンチマーク、162,946の徹底的に人的検証された回答、および(3)広範囲に
合計37,171のタスクで22の最先端のVLMをベンチマークし、ドメインとタスク間のパフォーマンスの変動を明らかにし、それによってカスタマイズされたVLMベンチマークの必要性をサポートします。
私たちの方法論の採用は、モデルのリソース効率の良いドメイン固有の選択への道を開き、コアオープンな質問への対処に向けて将来の研究努力を導きます。
要約(オリジナル)
Reliable evaluation of AI models is critical for scientific progress and practical application. While existing VLM benchmarks provide general insights into model capabilities, their heterogeneous designs and limited focus on a few imaging domains pose significant challenges for both cross-domain performance comparison and targeted domain-specific evaluation. To address this, we propose three key contributions: (1) a framework for the resource-efficient creation of domain-specific VLM benchmarks enabled by task augmentation for creating multiple diverse tasks from a single existing task, (2) the release of new VLM benchmarks for seven domains, created according to the same homogeneous protocol and including 162,946 thoroughly human-validated answers, and (3) an extensive benchmarking of 22 state-of-the-art VLMs on a total of 37,171 tasks, revealing performance variances across domains and tasks, thereby supporting the need for tailored VLM benchmarks. Adoption of our methodology will pave the way for the resource-efficient domain-specific selection of models and guide future research efforts toward addressing core open questions.
arxiv情報
著者 | Tim Rädsch,Leon Mayer,Simon Pavicic,A. Emre Kavur,Marcel Knopp,Barış Öztürk,Klaus Maier-Hein,Paul F. Jaeger,Fabian Isensee,Annika Reinke,Lena Maier-Hein |
発行日 | 2025-02-21 16:24:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google