SegLLM: Multi-round Reasoning Segmentation

要約

我々は、視覚的出力とテキスト出力の両方の会話記憶を利用することによってLLMベースのセグメンテーションを強化する、新しいマルチラウンドインタラクティブ推論セグメンテーションモデルであるSegLLMを紹介します。
マスク認識マルチモーダル LLM を活用することで、SegLLM は以前のセグメンテーション結果を入力ストリームに再統合し、複雑なユーザーの意図を推論し、複数の位置関係、対話関係、階層関係など、以前に識別されたエンティティに関連してオブジェクトをセグメント化できるようにします。
相互作用。
この機能により、SegLLM はチャットのような方法でビジュアルおよびテキストのクエリに応答できるようになります。
新たに厳選された MRSeg ベンチマークで評価したところ、SegLLM はマルチラウンドのインタラクティブ推論セグメンテーションにおける既存の手法より 20% 以上優れています。
さらに、マルチラウンド推論セグメンテーション データのトレーニングにより、標準的な単一ラウンドの参照セグメンテーションおよびローカリゼーション タスクのパフォーマンスが向上し、その結果、参照表現セグメンテーションの cIoU が 5.5% 増加し、参照表現の Acc@0.5 が 4.5% 向上することがわかりました。
ローカリゼーション。

要約(オリジナル)

We present SegLLM, a novel multi-round interactive reasoning segmentation model that enhances LLM-based segmentation by exploiting conversational memory of both visual and textual outputs. By leveraging a mask-aware multimodal LLM, SegLLM re-integrates previous segmentation results into its input stream, enabling it to reason about complex user intentions and segment objects in relation to previously identified entities, including positional, interactional, and hierarchical relationships, across multiple interactions. This capability allows SegLLM to respond to visual and text queries in a chat-like manner. Evaluated on the newly curated MRSeg benchmark, SegLLM outperforms existing methods in multi-round interactive reasoning segmentation by over 20%. Additionally, we observed that training on multi-round reasoning segmentation data enhances performance on standard single-round referring segmentation and localization tasks, resulting in a 5.5% increase in cIoU for referring expression segmentation and a 4.5% improvement in Acc@0.5 for referring expression localization.

arxiv情報

著者 XuDong Wang,Shaolun Zhang,Shufan Li,Konstantinos Kallidromitis,Kehan Li,Yusuke Kato,Kazuki Kozuka,Trevor Darrell
発行日 2024-10-24 17:11:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク