An Improved Baseline for Reasoning Segmentation with Large Language Model


LISA はセグメンテーションと大規模言語モデルの間のギャップを効果的に橋渡しして推論セグメンテーションを可能にしますが、ターゲット領域の異なるインスタンスを区別できないこと、事前定義されたテキスト応答形式による制約など、一定の制限があります。
この作業では、既存の LISA モデルのアップデートである LISA++ を紹介し、基本アーキテクチャをそのまま維持しながらコア機能を改善することに重点を置いています。
LISA++ の主な機能強化は次のとおりです。 \textbf{1) 拡張セグメンテーション}: インスタンス セグメンテーション機能が追加され、既存のマルチリージョン セマンティック セグメンテーションとともに、より詳細なシーン分析が提供されます。
\textbf{2) より自然な会話}: マルチターン ダイアログの機能が改善され、セグメンテーションの結果をテキスト応答に直接組み込む機能 (Segmentation in Dialogue (SiD)) が追加されました。
これらの改善は、構造の変更や追加のデータ ソースを使用せずにセグメンテーションと会話のスキルを強化することを特に目的とした、汎用セグメンテーション データセットの既存のサンプルを厳選することによって実現されます。
オリジナルの LISA モデルとの比較分析では、これらの分野での大幅な進歩が示されており、LISA++ は視覚的な理解とインタラクションにおける注目すべきアップグレードとして位置付けられています。
LISA++ の適応性と改善された機能は、LISA が提案するマスクとしての埋め込みパラダイムの多用途性と、多様なアプリケーションの基礎モデルとしての可能性を強調しています。


While LISA effectively bridges the gap between segmentation and large language models to enable reasoning segmentation, it poses certain limitations: unable to distinguish different instances of the target region, and constrained by the pre-defined textual response formats. In this work, we introduce LISA++, an update to the existing LISA model, focusing on improving core functionalities while keeping the base architecture intact. The main enhancements in LISA++ include: \textbf{1) Enhanced Segmentation}: The instance segmentation ability has been added, providing a more detailed scene analysis along with the existing multi-region semantic segmentation. \textbf{2) More Natural Conversation}: Improved capability for multi-turn dialogue, with the ability to incorporate segmentation results directly into text responses, i.e., Segmentation in Dialogue (SiD). These improvements are achieved by curating the existing samples of generic segmentation datasets, aimed specifically at enhancing the segmentation and conversational skills without structural change and additional data sources. Comparative analysis with the original LISA model shows significant advancements in these areas, positioning LISA++ as a notable upgrade in visual understanding and interaction. LISA++’s adaptability and improved features highlight the versatility of the mask-as-embedding paradigm proposed by LISA, and the potential as a foundational model for diverse applications.


著者 Senqiao Yang,Tianyuan Qu,Xin Lai,Zhuotao Tian,Bohao Peng,Shu Liu,Jiaya Jia
発行日 2023-12-28 18:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク