要約
オブジェクト検出とは異なり、視覚的グラウンディングでは、テキストと画像のペアごとにバウンディングボックスを検出する。各テキスト-画像データに対するこの1つのボックスは、疎な監視信号を提供する。これまでの研究では、印象的な結果が得られているが、アノテーションの受動的な利用、すなわち、回帰のグランドトゥルースとしてボックスのアノテーションのみを利用することで、最適な性能が得られていない。本論文では、SegVGを紹介する。SegVGは、ボックスレベルのアノテーションをセグメンテーション信号として転送し、Visual Groundingのための追加的なピクセルレベルの監視を提供する新しい手法である。具体的には、ターゲット接地段階として多層マルチタスクエンコーダ-デコーダを提案し、各デコーディング層でそれぞれ回帰クエリと複数のセグメンテーションクエリを学習し、ボックスの回帰とセグメンテーションによってターゲットを接地する。このアプローチにより、ボックスレベルの回帰とピクセルレベルのセグメンテーションの両方の信号として、アノテーションを繰り返し利用することができる。さらに、バックボーンは通常、ユニモーダルなタスクから学習された事前学習されたパラメータによって初期化され、回帰とセグメンテーションの両方のクエリは静的な学習可能な埋め込みであるため、これら3つのタイプの特徴の間に領域の不一致が残り、これが後続のターゲットグラウンディングを損なう。この不一致を緩和するために、我々はトリプルアライメントモジュールを導入する。トリプルアライメントモジュールでは、クエリー、テキスト、ビジョントークンが、トリプルアテンションメカニズムにより、同じ空間を共有するように三角形に更新される。広く使われている5つのデータセットを用いた広範な実験により、我々の最先端の(SOTA)性能が検証された。
要約(オリジナル)
Different from Object Detection, Visual Grounding deals with detecting a bounding box for each text-image pair. This one box for each text-image data provides sparse supervision signals. Although previous works achieve impressive results, their passive utilization of annotation, i.e. the sole use of the box annotation as regression ground truth, results in a suboptimal performance. In this paper, we present SegVG, a novel method transfers the box-level annotation as Segmentation signals to provide an additional pixel-level supervision for Visual Grounding. Specifically, we propose the Multi-layer Multi-task Encoder-Decoder as the target grounding stage, where we learn a regression query and multiple segmentation queries to ground the target by regression and segmentation of the box in each decoding layer, respectively. This approach allows us to iteratively exploit the annotation as signals for both box-level regression and pixel-level segmentation. Moreover, as the backbones are typically initialized by pretrained parameters learned from unimodal tasks and the queries for both regression and segmentation are static learnable embeddings, a domain discrepancy remains among these three types of features, which impairs subsequent target grounding. To mitigate this discrepancy, we introduce the Triple Alignment module, where the query, text, and vision tokens are triangularly updated to share the same space by triple attention mechanism. Extensive experiments on five widely used datasets validate our state-of-the-art (SOTA) performance.
arxiv情報
著者 | Weitai Kang,Gaowen Liu,Mubarak Shah,Yan Yan |
発行日 | 2024-07-03 15:30:45+00:00 |
arxivサイト | arxiv_id(pdf) |