CoReS: Orchestrating the Dance of Reasoning and Segmentation

要約

オブジェクト領域を正確に特定するには、複雑なクエリを微妙に理解する必要がある推論セグメンテーション タスクがますます注目を集めています。
ただし、マルチモーダル大規模言語モデル (MLLM) では、複雑な推論コンテキストで記述されたオブジェクトを正確にローカライズすることが難しいことがよくあります。
私たちは、推論によるセグメンテーションという行為は、人間の視覚的検索の認知段階を反映すべきであると信じています。各段階は、最終的なオブジェクトに向けて思考を段階的に洗練させていくものです。
そこで、推論とセグメント化のチェーン (CoReS) を導入し、このトップダウンの視覚的階層が実際に視覚的な検索プロセスを強化することがわかりました。
具体的には、セグメンテーションプロセスを支援するために、マルチモーダルなチェーン状の出力を生成するデュアルチェーン構造を提案します。
さらに、MLLM の出力をこの意図した階層に誘導するために、コンテキスト内の入力をガイダンスとして組み込みます。
広範な実験により、当社の CoReS の優れたパフォーマンスが実証され、ReasonSeg データセットで最先端の手法を 7.1\% 上回りました。
コードは https://github.com/baoxiaoyi/CoReS で公開されます。

要約(オリジナル)

The reasoning segmentation task, which demands a nuanced comprehension of intricate queries to accurately pinpoint object regions, is attracting increasing attention. However, Multi-modal Large Language Models (MLLM) often find it difficult to accurately localize the objects described in complex reasoning contexts. We believe that the act of reasoning segmentation should mirror the cognitive stages of human visual search, where each step is a progressive refinement of thought toward the final object. Thus we introduce the Chains of Reasoning and Segmenting (CoReS) and find this top-down visual hierarchy indeed enhances the visual search process. Specifically, we propose a dual-chain structure that generates multi-modal, chain-like outputs to aid the segmentation process. Furthermore, to steer the MLLM’s outputs into this intended hierarchy, we incorporate in-context inputs as guidance. Extensive experiments demonstrate the superior performance of our CoReS, which surpasses the state-of-the-art method by 7.1\% on the ReasonSeg dataset. The code will be released at https://github.com/baoxiaoyi/CoReS.

arxiv情報

著者 Xiaoyi Bao,Siyang Sun,Shuailei Ma,Kecheng Zheng,Yuxin Guo,Guosheng Zhao,Yun Zheng,Xingang Wang
発行日 2024-04-08 16:55:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク