要約
タイトル:「Segment Everything Everywhere All at Once」
要約:
– AIシステムのインタラクティブ性の需要の増加にもかかわらず、セグメンテーションなどの視覚的理解における人間とAIの相互作用に関する総合的な研究はほとんど行われていない。
– この論文では、LLMsのプロンプトベースの汎用インターフェースの開発にインスパイアされ、画像全体を一度にセグメント化するためのプロンプタブルでインタラクティブなモデルであるSEEMを提案する。
– SEEMには4つの要件がある:i)多目的:さまざまな種類のプロンプト(ポイント、ボックス、落書き、マスク、テキスト、別の画像の参照領域)に対応する多用途のプロンプトエンジンを導入することで、ii)合成性:視覚的およびテキストプロンプトのための共通の視覚的および意味的な空間を学習し、瞬時にクエリを構成して図1に示すように推論するため、iii)インタラクティブ性:学習可能なメモリプロンプトを組み込み、マスクガイドのクロスアテンションを介して対話履歴情報を保持すること、そしてiv)意味認識:オープンボキャブラリーセグメンテーションのために、テキストエンコーダを使用してテキストクエリとマスクラベルをエンコードすること。
要約(オリジナル)
Despite the growing demand for interactive AI systems, there have been few comprehensive studies on human-AI interaction in visual understanding e.g. segmentation. Inspired by the development of prompt-based universal interfaces for LLMs, this paper presents SEEM, a promptable, interactive model for Segmenting Everything Everywhere all at once in an image. SEEM has four desiderata: i) Versatility: by introducing a versatile prompting engine for different types of prompts, including points, boxes, scribbles, masks, texts, and referred regions of another image; ii) Compositionality: by learning a joint visual-semantic space for visual and textual prompts to compose queries on the fly for inference as shown in Fig 1; iii)Interactivity: by incorporating learnable memory prompts to retain dialog history information via mask-guided cross-attention; and iv) Semantic-awareness: by using a text encoder to encode text queries and mask labels for open-vocabulary segmentation.
arxiv情報
著者 | Xueyan Zou,Jianwei Yang,Hao Zhang,Feng Li,Linjie Li,Jianfeng Gao,Yong Jae Lee |
発行日 | 2023-04-13 17:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI