Position-guided Text Prompt for Vision-Language Pre-training

要約

Vision-Language Pre-Training (VLP) は、画像とテキストのペアを整列させる有望な機能を示しており、さまざまなクロスモーダル学習タスクを促進します。
ただし、VLP モデルには、視覚的な推論などの多くのダウンストリーム タスクにとって重要な視覚的なグラウンディング/ローカリゼーション機能が欠けていることがよくあります。
この作業では、VLP でトレーニングされたクロスモーダル モデルの視覚的接地能力を強化するために、新しい位置ガイド付きテキスト プロンプト (PTP) パラダイムを提案します。
具体的には、VLP フェーズでは、PTP は画像を $N\times N$ ブロックに分割し、VLP で広く使用されているオブジェクト検出器を通じて各ブロック内のオブジェクトを識別します。
次に、モデルが特定のブロック内のオブジェクトを予測するか、特定のオブジェクトのブロックを回帰することを奨励することにより、視覚的なグラウンディング タスクを PTP が与えられた空白を埋める問題に再定式化します。
aPTP に「P」または「O」を入れる 「ブロック P には O があります」。
このメカニズムにより、VLP モデルの視覚的なグラウンディング機能が向上し、さまざまなダウンストリーム タスクをより適切に処理できるようになります。
PTP をいくつかの最先端の VLP フレームワークに導入することで、代表的なクロスモーダル学習モデル アーキテクチャといくつかのベンチマークで一貫して大幅な改善が見られます。
ViLT \cite{vilt} ベースラインのゼロショット Flickr30K 検索 (平均リコール @1 で +4.8)、および SOTA BLIP \cite{blip} ベースラインの COCO キャプション (CIDEr で +5.3)。
さらに、PTP はオブジェクト検出器ベースの方法と同等の結果を達成し、PTP はオブジェクト検出器を破棄して推論を破棄するため、推論速度がはるかに高速になります。
コードと事前トレーニング済みの重みは、\url{https://github.com/sail-sg/ptp} でリリースされます。

要約(オリジナル)

Vision-Language Pre-Training (VLP) has shown promising capabilities to align image and text pairs, facilitating a broad variety of cross-modal learning tasks. However, we observe that VLP models often lack the visual grounding/localization capability which is critical for many downstream tasks such as visual reasoning. In this work, we propose a novel Position-guided Text Prompt (PTP) paradigm to enhance the visual grounding ability of cross-modal models trained with VLP. Specifically, in the VLP phase, PTP divides the image into $N\times N$ blocks, and identifies the objects in each block through the widely used object detector in VLP. It then reformulates the visual grounding task into a fill-in-the-blank problem given a PTP by encouraging the model to predict the objects in the given blocks or regress the blocks of a given object, e.g. filling `P’ or “O’ in aPTP “The block P has a O’. This mechanism improves the visual grounding capability of VLP models and thus helps them better handle various downstream tasks. By introducing PTP into several state-of-the-art VLP frameworks, we observe consistently significant improvements across representative cross-modal learning model architectures and several benchmarks, e.g. zero-shot Flickr30K Retrieval (+4.8 in average recall@1) for ViLT \cite{vilt} baseline, and COCO Captioning (+5.3 in CIDEr) for SOTA BLIP \cite{blip} baseline. Moreover, PTP achieves comparable results with object-detector based methods, and much faster inference speed since PTP discards its object detector for inference while the later cannot. Our code and pre-trained weight will be released at \url{https://github.com/sail-sg/ptp}.

arxiv情報

著者 Alex Jinpeng Wang,Pan Zhou,Mike Zheng Shou,Shuicheng Yan
発行日 2022-12-19 18:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク