要約
大規模なマルチモーダルモデル(LMM)は、ビジョン言語(VL)タスクのジェネラリストとして重要な可能性を示しています。
ただし、基本的なVL機能の組み合わせを必要とする複雑なタスクと、複雑な命令の接地を含むタスクに関しては、最先端のLMMと人間のパフォーマンスとの間には大きなギャップが残っています。
ヒト-lmmギャップとその根本的な原因を徹底的に調査するために、LMMSに挑戦する複雑な実世界のVLタスクを備えた多様なベンチマークであるMoatを提案します。
具体的には、MOATのタスクでは、テキストの読み取り、カウント、空間関係の理解、テキストおよび視覚的指示の接地などの基本的なVL機能を統合することにより、LMMが一般主義の問題解決に関与する必要があります。これらすべての能力は、10の基本的なVL能力を含む米国が提案する分類に適合し、MOATを促進し、微妙な見方を提供します。
その上、Moatは、多くの実際のアプリケーションに不可欠な複雑なテキストと視覚的指示を接地するLMMSの能力を明示的に評価する最初のベンチマークです。
私たちは、20を超える独自およびオープンソースのLMM、および人間を堀で評価し、人間が82.7%の精度を達成し、最高のパフォーマンスのLMM(Openai O1)は38.8%しか達成されなかったことがわかりました。
将来のモデル開発を導くために、結果の一般的な傾向を分析し、LMMSと人間の間で観察されたパフォーマンスギャップの根本的な原因を議論します。どのVL能力が複雑なタスクのボトルネックを形成するか、テスト時間スケーリングがMOATのパフォーマンスを改善するかどうか、LMMの能力をカウントするかどうかに焦点を当てます。
コードとデータは、https://cambrian-yzt.github.io/moatで入手できます。
要約(オリジナル)
Large multimodal models (LMMs) have demonstrated significant potential as generalists in vision-language (VL) tasks. However, there remains a significant gap between state-of-the-art LMMs and human performance when it comes to complex tasks that require a combination of fundamental VL capabilities, as well as tasks involving the grounding of complex instructions. To thoroughly investigate the human-LMM gap and its underlying causes, we propose MOAT, a diverse benchmark with complex real-world VL tasks that are challenging for LMMs. Specifically, the tasks in MOAT require LMMs to engage in generalist problem solving by integrating fundamental VL capabilities such as reading text, counting, understanding spatial relations, grounding textual and visual instructions, etc. All these abilities fit into a taxonomy proposed by us that contains 10 fundamental VL capabilities, enabling MOAT to provide a fine-grained view of LMMs’ strengths and weaknesses. Besides, MOAT is the first benchmark to explicitly evaluate LMMs’ ability to ground complex text and visual instructions, which is essential to many real-world applications. We evaluate over 20 proprietary and open source LMMs, as well as humans, on MOAT, and found that humans achieved 82.7% accuracy while the best performing LMM (OpenAI o1) achieved only 38.8%. To guide future model development, we analyze common trends in our results and discuss the underlying causes of observed performance gaps between LMMs and humans, focusing on which VL capability forms the bottleneck in complex tasks, whether test time scaling improves performance on MOAT, and how tiling harms LMMs’ capability to count. Code and data are available at https://cambrian-yzt.github.io/MOAT.
arxiv情報
著者 | Zhoutong Ye,Mingze Sun,Huan-ang Gao,Chun Yu,Yuanchun Shi |
発行日 | 2025-03-12 12:49:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google