要約
MLLMは適切な画像理解機能を実証していますが、Pixelレベルの理解に苦労しており、実際のアプリケーションを制限しています。
VQAや視覚的接地などの現在の評価タスクは、微細なピクセル理解を正確に評価するには粗すぎます。
セグメンテーションはピクセルレベルの理解の基礎ですが、既存の方法では、外部ピクセルデコーダーを介してデコードされた暗黙のトークンを生成するためにMLLMが必要です。
このアプローチは、MLLMのテキスト出力スペースを破壊し、言語の能力を損ない、柔軟性と拡張性を低下させ、モデルの固有のピクセルレベルの理解を反映しません。
したがって、MLLMがインタラクティブセグメンテーションツールを使用してヒトアノテーターを模倣する新しいパラダイムである人間のようなマスク注釈タスク(HLMAT)を紹介します。
マルチステップマルコフ決定プロセスとしてのセグメンテーションのモデリングHLMATにより、MLLMはテキストベースのクリックポイントを繰り返し生成し、アーキテクチャの変更や暗黙のトークンなしで高品質のマスクを実現できます。
このセットアップを通じて、人間のような注釈軌跡に微調整されたモデルであるSegagentを開発します。これは、最先端の(SOTA)メソッドに匹敵するパフォーマンスを実現し、マスクの洗練や注釈フィルタリングなどの追加タスクをサポートします。
HLMATは、MLLMSでのきめ細かいピクセル理解を評価するためのプロトコルを提供し、MLLMの視覚的推論能力の探求を促進する視覚中心のマルチステップの意思決定タスクを導入します。
ポリシー改善方法の適応STARとPRM誘導ツリー検索は、複雑なセグメンテーションタスクのモデルの堅牢性をさらに高め、MLLMの微細な視覚知覚とマルチステップの意思決定における将来の進歩の基礎を築きます。
要約(オリジナル)
While MLLMs have demonstrated adequate image understanding capabilities, they still struggle with pixel-level comprehension, limiting their practical applications. Current evaluation tasks like VQA and visual grounding remain too coarse to assess fine-grained pixel comprehension accurately. Though segmentation is foundational for pixel-level understanding, existing methods often require MLLMs to generate implicit tokens, decoded through external pixel decoders. This approach disrupts the MLLM’s text output space, potentially compromising language capabilities and reducing flexibility and extensibility, while failing to reflect the model’s intrinsic pixel-level understanding. Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new paradigm where MLLMs mimic human annotators using interactive segmentation tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT enables MLLMs to iteratively generate text-based click points, achieving high-quality masks without architectural changes or implicit tokens. Through this setup, we develop SegAgent, a model fine-tuned on human-like annotation trajectories, which achieves performance comparable to state-of-the-art (SOTA) methods and supports additional tasks like mask refinement and annotation filtering. HLMAT provides a protocol for assessing fine-grained pixel understanding in MLLMs and introduces a vision-centric, multi-step decision-making task that facilitates exploration of MLLMs’ visual reasoning abilities. Our adaptations of policy improvement method StaR and PRM-guided tree search further enhance model robustness in complex segmentation tasks, laying a foundation for future advancements in fine-grained visual perception and multi-step decision-making for MLLMs.
arxiv情報
著者 | Muzhi Zhu,Yuzhuo Tian,Hao Chen,Chunluan Zhou,Qingpei Guo,Yang Liu,Ming Yang,Chunhua Shen |
発行日 | 2025-03-11 17:08:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google