要約
私たちは、テキスト プロンプトを入力として使用して、さまざまな環境で幅広いカテゴリからオブジェクトを識別する必要があるオープン語彙セグメンテーションの課題に取り組みます。
この課題を克服するために、既存の方法では、CLIP のようなマルチモーダル モデルがよく使用されます。このモデルは、共有埋め込みスペースで画像とテキストの特徴を組み合わせて、限られた語彙認識と広範な語彙認識の間のギャップを埋めるため、次の 2 段階のアプローチになります。
、マスク ジェネレーターは入力画像を取得してマスク提案を生成し、第 2 段階でクエリに基づいてターゲット マスクが選択されます。
ただし、予期されたターゲット マスクが生成されたマスク提案に存在しない可能性があり、予期しない出力マスクが生成されます。
私たちの研究では、マスク ジェネレーターが入力テキスト プロンプトを取得し、これらのプロンプトに基づいてマスクを生成する、プロンプト ガイド付きマスク提案 (PMP) と呼ばれる新しいアプローチを提案します。
入力プロンプトなしで生成されたマスク提案と比較して、PMP によって生成されたマスクは入力プロンプトとよりよく一致しています。
PMP を実現するために、各デコード後にプロンプトガイド付きのマスク提案を生成できる、テキスト トークンとクエリ トークン間のクロスアテンション メカニズムを設計しました。
私たちは、クエリベースのセグメンテーション バックボーンを採用したいくつかの既存の作業と PMP を組み合わせました。5 つのベンチマーク データセットでの実験では、このアプローチの有効性が実証され、現在の 2 段階モデルと比べて大幅な改善が見られました (絶対的なパフォーマンスの向上は 1% ~ 3% です)。
mIOU)。
これらのベンチマーク全体でパフォーマンスが着実に向上していることは、私たちが提案した軽量のプロンプト認識手法が効果的に一般化されていることを示しています。
要約(オリジナル)
We tackle the challenge of open-vocabulary segmentation, where we need to identify objects from a wide range of categories in different environments, using text prompts as our input. To overcome this challenge, existing methods often use multi-modal models like CLIP, which combine image and text features in a shared embedding space to bridge the gap between limited and extensive vocabulary recognition, resulting in a two-stage approach: In the first stage, a mask generator takes an input image to generate mask proposals, and the in the second stage the target mask is picked based on the query. However, the expected target mask may not exist in the generated mask proposals, which leads to an unexpected output mask. In our work, we propose a novel approach named Prompt-guided Mask Proposal (PMP) where the mask generator takes the input text prompts and generates masks guided by these prompts. Compared with mask proposals generated without input prompts, masks generated by PMP are better aligned with the input prompts. To realize PMP, we designed a cross-attention mechanism between text tokens and query tokens which is capable of generating prompt-guided mask proposals after each decoding. We combined our PMP with several existing works employing a query-based segmentation backbone and the experiments on five benchmark datasets demonstrate the effectiveness of this approach, showcasing significant improvements over the current two-stage models (1% ~ 3% absolute performance gain in terms of mIOU). The steady improvement in performance across these benchmarks indicates the effective generalization of our proposed lightweight prompt-aware method.
arxiv情報
著者 | Yu-Jhe Li,Xinyang Zhang,Kun Wan,Lantao Yu,Ajinkya Kale,Xin Lu |
発行日 | 2024-12-13 17:22:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google