Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts

要約

推論セグメンテーションは、複雑で暗黙的な、さらには非視覚クエリテキストに関して、セグメンテーションマスクを出力することを目的とする挑戦的なビジョン言語タスクです。
以前の作品は、困難な問題にアプローチするために、マルチモーダルラージランゲージモデル(MLLMS)をセグメンテーションモデルに組み込みました。
ただし、特に複雑な構造、ぼやけた境界、閉塞、または周囲との高い類似性を備えたドメイン外のオブジェクトを扱う場合、それらのセグメンテーションの品質はしばしば不足しています。
この論文では、これらの挑戦的なケースに対処するためにGPTの考え方を活用するトレーニングなしの推論セグメンテーションフレームワークであるThinkfirstを紹介します。
私たちのアプローチにより、GPT-4Oまたは他の強力なMLLMが画像の詳細なチェーンの説明を生成することができます。
次に、この要約された説明は、セグメンテーションプロセスを支援するために、言語にインストールされたセグメンテーションアシスタントに渡されます。
当社のフレームワークにより、ユーザーは、簡単なテキストや画像の落書きなどのマルチモーダル入力を使用して、連続した改良や通信を使用して、セグメンテーションエージェントと簡単に対話できます。
多様なオブジェクトのThinkFirstのパフォーマンスを評価します。
広範な実験によれば、このゼロショットコットアプローチは、最初に考えた後、ユーザーが提供するプロンプトに対して敏感または重要である一方で、定性的および定量的にバニラ推論セグメンテーションエージェントを大幅に改善することが示されています。

要約(オリジナル)

Reasoning segmentation is a challenging vision-language task that aims to output the segmentation mask with respect to a complex, implicit, and even non-visual query text. Previous works incorporated multimodal Large Language Models (MLLMs) with segmentation models to approach the difficult problem. However, their segmentation quality often falls short in complex cases, particularly when dealing with out-of-domain objects with intricate structures, blurry boundaries, occlusions, or high similarity with surroundings. In this paper, we introduce ThinkFirst, a training-free reasoning segmentation framework that leverages GPT’s chain of thought to address these challenging cases. Our approach allows GPT-4o or other powerful MLLMs to generate a detailed, chain-of-thought description of an image. This summarized description is then passed to a language-instructed segmentation assistant to aid the segmentation process. Our framework allows users to easily interact with the segmentation agent using multimodal inputs, such as easy text and image scribbles, for successive refinement or communication. We evaluate the performance of ThinkFirst on diverse objects. Extensive experiments show that, this zero-shot-CoT approach significantly improves the vanilla reasoning segmentation agent, both qualitatively and quantitatively, while being less sensitive or critical to user-supplied prompts after Thinking First.

arxiv情報

著者 Shiu-hong Kao,Yu-Wing Tai,Chi-Keung Tang
発行日 2025-03-10 16:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク