要約
参照式理解(REC)は、言語の理解、イメージの理解、言語から画像への接地の相互作用を評価する基本的なクロスモーダルタスクです。
マルチモーダルの大手言語モデル(MLLMS)の必須テストの場として機能します。
このフィールドを進めるために、2つの重要な機能を特徴とする以前の会議用紙に新しいRECデータセットを導入しました。
まず、制御可能な難易度レベルで設計されており、オブジェクトカテゴリ、属性、およびマルチホップ関係を越えてマルチレベルの微調整された推論が必要です。
第二に、微調整された編集と増強によって生成されたネガティブテキストと画像が組み込まれ、ターゲットオブジェクトが存在しないシナリオを拒否するモデルの能力を明示的にテストします。
この拡張作業では、専門モデルとMLLMの強度を組み合わせることにより、細粒のRecの課題に取り組むための2つの新しい方法を提案します。
最初の方法は、より高速の軽量モデルに単純なケースを適応的に割り当て、複雑なモデルを強力なMLLMのために留保し、精度と効率のバランスを取ります。
2番目の方法により、スペシャリストは可能なオブジェクト領域のセットを生成でき、MLLMはその推論能力を使用して最ももっともらしいものを選択します。
これらの共同戦略は、データセットやその他の挑戦的なベンチマークの大幅な改善につながります。
私たちの結果は、特殊なモデルと汎用モデルを組み合わせることで、複雑な現実世界のビジョン言語タスクを解決するための実用的な道を提供することを示しています。
データセットとコードは、https://github.com/sleepyshep/finecops-refで入手できます。
要約(オリジナル)
Referring Expression Comprehension (REC) is a foundational cross-modal task that evaluates the interplay of language understanding, image comprehension, and language-to-image grounding. It serves as an essential testing ground for Multimodal Large Language Models (MLLMs). To advance this field, we introduced a new REC dataset in our previous conference paper, characterized by two key features. First, it is designed with controllable difficulty levels, requiring multi-level fine-grained reasoning across object categories, attributes, and multi-hop relationships. Second, it incorporates negative text and images generated through fine-grained editing and augmentation, explicitly testing a model’s ability to reject scenarios where the target object is absent, an often overlooked yet critical challenge in existing datasets. In this extended work, we propose two new methods to tackle the challenges of fine-grained REC by combining the strengths of Specialist Models and MLLMs. The first method adaptively assigns simple cases to faster, lightweight models and reserves complex ones for powerful MLLMs, balancing accuracy and efficiency. The second method lets a specialist generate a set of possible object regions, and the MLLM selects the most plausible one using its reasoning ability. These collaborative strategies lead to significant improvements on our dataset and other challenging benchmarks. Our results show that combining specialized and general-purpose models offers a practical path toward solving complex real-world vision-language tasks. Our dataset and code are available at https://github.com/sleepyshep/FineCops-Ref.
arxiv情報
著者 | Xuzheng Yang,Junzhuo Liu,Peng Wang,Guoqing Wang,Yang Yang,Heng Tao Shen |
発行日 | 2025-06-13 16:17:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google