Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network

要約

パノラマ ナラティブ グラウンディング (PNG) は、高密度のナラティブ キャプションに基づいて画像内の視覚オブジェクトをセグメント化することを目的とした、新たなビジュアル グラウンディング タスクです。
現在の最先端の方法では、最初に最も類似した $k$ 画像ピクセルを集約することでフレーズの表現を洗練し、次に洗練されたテキスト表現を画像特徴マップのピクセルと照合してセグメンテーション結果を生成します。
ただし、サンプリングされた画像の特徴を単純に集約するとコンテキスト情報が無視されるため、フレーズとピクセルの不一致が生じる可能性があります。
この論文では、変形可能な注意洗練されたマッチング ネットワーク (DRMN) と呼ばれる新しい学習フレームワークを提案します。その主なアイデアは、特徴学習の反復プロセスに変形可能な注意をもたらし、さまざまなスケールのピクセルの重要なコンテキスト情報を組み込むことです。
DRMN は、上位 $k$ の最も類似したピクセルの特徴表現を更新した後、変形可能なアテンション ネットワークを使用してピクセルを繰り返し再エンコードします。
そのため、DRMN は正確でありながら識別力のあるピクセル表現を実現し、最も類似した上位から $k$ のピクセルを純化し、その結果、フレーズとピクセルの不一致を大幅に軽減します。実験結果は、私たちの新しい設計がマッチング結果を大幅に改善することを示しています。
テキストフレーズと画像ピクセルの間。
具体的には、DRMN は PNG ベンチマークで新しい最先端のパフォーマンスを達成し、平均再現率 3.5% の改善を達成しました。
コードは https://github.com/JaMesLiMers/DRMN で入手できます。

要約(オリジナル)

Panoramic Narrative Grounding (PNG) is an emerging visual grounding task that aims to segment visual objects in images based on dense narrative captions. The current state-of-the-art methods first refine the representation of phrase by aggregating the most similar $k$ image pixels, and then match the refined text representations with the pixels of the image feature map to generate segmentation results. However, simply aggregating sampled image features ignores the contextual information, which can lead to phrase-to-pixel mis-match. In this paper, we propose a novel learning framework called Deformable Attention Refined Matching Network (DRMN), whose main idea is to bring deformable attention in the iterative process of feature learning to incorporate essential context information of different scales of pixels. DRMN iteratively re-encodes pixels with the deformable attention network after updating the feature representation of the top-$k$ most similar pixels. As such, DRMN can lead to accurate yet discriminative pixel representations, purify the top-$k$ most similar pixels, and consequently alleviate the phrase-to-pixel mis-match substantially.Experimental results show that our novel design significantly improves the matching results between text phrases and image pixels. Concretely, DRMN achieves new state-of-the-art performance on the PNG benchmark with an average recall improvement 3.5%. The codes are available in: https://github.com/JaMesLiMers/DRMN.

arxiv情報

著者 Yiming Lin,Xiao-Bo Jin,Qiufeng Wang,Kaizhu Huang
発行日 2023-10-25 13:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク