LISA: Reasoning Segmentation via Large Language Model

要約

近年、知覚システムは目覚ましい進歩を遂げているが、視覚認識タスクを実行する前に、ターゲットとなる物体やカテゴリーを特定するために、依然として人間の明示的な指示に依存している。このようなシステムは、ユーザの暗黙の意図を能動的に推論し理解する能力に欠けている。本研究では、新しいセグメンテーションタスクである推論セグメンテーションを提案する。このタスクは、複雑で暗黙的なクエリテキストが与えられた場合に、セグメンテーションマスクを出力するように設計されている。さらに、評価のために、複雑な推論と世界知識を組み込んだ、1,000以上の画像と命令のペアからなるベンチマークを確立する。最後に、LISA: large Language Instructed Segmentation Assistantを紹介する。LISAは、マルチモーダルLarge Language Model (LLM)の言語生成機能を継承しつつ、セグメンテーションマスクを生成する機能を持つ。元の語彙をトークンで拡張し、セグメンテーション能力を解放するために、マスクとしての埋め込みパラダイムを提案する。驚くべきことに、LISAは以下のようなケースを扱うことができる:1)複雑な推論、2)世界知識、3)説明的な回答、4)マルチターン会話。また、推論を含まないデータセットのみで学習した場合、頑健なゼロショット能力を示す。さらに、239の推論セグメンテーション画像と命令のペアを用いてモデルを微調整することで、さらなる性能向上が得られる。実験によると、我々の手法は新しい推論セグメンテーション能力を引き出すだけでなく、複雑な推論セグメンテーションと標準的な参照セグメンテーションタスクの両方で効果的であることを示す。コード、モデル、デモはhttps://github.com/dvlab-research/LISA。

要約(オリジナル)

Although perception systems have made remarkable advancements in recent years, they still rely on explicit human instruction to identify the target objects or categories before executing visual recognition tasks. Such systems lack the ability to actively reason and comprehend implicit user intentions. In this work, we propose a new segmentation task — reasoning segmentation. The task is designed to output a segmentation mask given a complex and implicit query text. Furthermore, we establish a benchmark comprising over one thousand image-instruction pairs, incorporating intricate reasoning and world knowledge for evaluation purposes. Finally, we present LISA: large Language Instructed Segmentation Assistant, which inherits the language generation capabilities of the multi-modal Large Language Model (LLM) while also possessing the ability to produce segmentation masks. We expand the original vocabulary with a token and propose the embedding-as-mask paradigm to unlock the segmentation capability. Remarkably, LISA can handle cases involving: 1) complex reasoning; 2) world knowledge; 3) explanatory answers; 4) multi-turn conversation. Also, it demonstrates robust zero-shot capability when trained exclusively on reasoning-free datasets. In addition, fine-tuning the model with merely 239 reasoning segmentation image-instruction pairs results in further performance enhancement. Experiments show our method not only unlocks new reasoning segmentation capabilities but also proves effective in both complex reasoning segmentation and standard referring segmentation tasks. Code, models, and demo are at https://github.com/dvlab-research/LISA.

arxiv情報

著者 Xin Lai,Zhuotao Tian,Yukang Chen,Yanwei Li,Yuhui Yuan,Shu Liu,Jiaya Jia
発行日 2023-08-03 17:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク