要約
クリック、落書き、ボックスなどの多様な視覚的プロンプトをインタラクティブな画像セグメンテーションに統合すると、ユーザーのインタラクションが大幅に促進され、インタラクション効率が向上する可能性があります。
既存の研究のほとんどは、セグメンテーション予測の入力としてプロンプトと画像を単純に連結することにより、単一タイプの視覚的プロンプトに焦点を当てていますが、プロンプト表現の効率が低く、インタラクションが弱いという問題があります。
この論文では、シンプルでありながら効果的な Visual Prompt Unified Transformer (VPUFormer) を提案します。これは、セグメンテーションのパフォーマンスを向上させるための、より深いインタラクションを備えた簡潔な統一プロンプト表現を導入します。
具体的には、ガウス マッピングを使用して、クリック、ボックス、および落書きプロンプトの統合 1 次元ベクトルを生成するプロンプト統合エンコーダー (PuE) を設計します。これは、ユーザーの意図を適切に捕捉するだけでなく、ユーザー プロンプトのより高密度な表現を提供します。
さらに、ユーザーのフィードバックを活用して意味論的特徴の候補を段階的に絞り込むプロンプト対ピクセル対比損失 (P2CL) を提示します。これは、画像の意味論的特徴をユーザー プロンプトに類似した特徴に近づけることを目的としており、それらのイメージを押しのけることを目的としています。
ユーザープロンプトとは異なるセマンティック特徴を検出し、それによって期待から逸脱した結果を修正します。
これに基づいて、私たちのアプローチはプロンプト表現をクエリとしてデュアルクロス マージング アテンション (DMA) ブロックに挿入し、画像とクエリ入力間のより深い相互作用を実行します。
7 つの困難なデータセットに対する包括的なさまざまな実験により、PuE、DMA、および P2CL を使用した提案された VPUFormer が一貫した改善を達成し、最先端のセグメンテーション パフォーマンスが得られることが実証されました。
私たちのコードは https://github.com/XuZhang1211/VPUFormer で公開されます。
要約(オリジナル)
The integration of diverse visual prompts like clicks, scribbles, and boxes in interactive image segmentation could significantly facilitate user interaction as well as improve interaction efficiency. Most existing studies focus on a single type of visual prompt by simply concatenating prompts and images as input for segmentation prediction, which suffers from low-efficiency prompt representation and weak interaction issues. This paper proposes a simple yet effective Visual Prompt Unified Transformer (VPUFormer), which introduces a concise unified prompt representation with deeper interaction to boost the segmentation performance. Specifically, we design a Prompt-unified Encoder (PuE) by using Gaussian mapping to generate a unified one-dimensional vector for click, box, and scribble prompts, which well captures users’ intentions as well as provides a denser representation of user prompts. In addition, we present a Prompt-to-Pixel Contrastive Loss (P2CL) that leverages user feedback to gradually refine candidate semantic features, aiming to bring image semantic features closer to the features that are similar to the user prompt, while pushing away those image semantic features that are dissimilar to the user prompt, thereby correcting results that deviate from expectations. On this basis, our approach injects prompt representations as queries into Dual-cross Merging Attention (DMA) blocks to perform a deeper interaction between image and query inputs. A comprehensive variety of experiments on seven challenging datasets demonstrates that the proposed VPUFormer with PuE, DMA, and P2CL achieves consistent improvements, yielding state-of-the-art segmentation performance. Our code will be made publicly available at https://github.com/XuZhang1211/VPUFormer.
arxiv情報
著者 | Xu Zhang,Kailun Yang,Jiacheng Lin,Jin Yuan,Zhiyong Li,Shutao Li |
発行日 | 2023-06-11 12:00:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google