PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition

要約

マルチラベル画像認識は、コンピューター ビジョンの基本的なタスクです。
最近、視覚言語モデルがこの分野で顕著な進歩を遂げています。
ただし、以前の方法では、言語モデル内の豊富な知識を効果的に活用できず、代わりにラベル セマンティクスを一方向の方法で視覚的特徴に組み込むことができませんでした。
この論文では、言語モダリティの機能をより適切に活用するために、プロンプト駆動型の視覚言語表現学習 (PVLR) フレームワークを提案します。
PVLR では、まず、知識認識型プロンプティング (KAP) とコンテキスト認識型プロンプティング (CAP) から構成されるデュアル プロンプト戦略を導入します。
KAP は固定プロンプトを利用してすべてのラベルにわたる固有の意味論的な知識と関係を取得しますが、CAP は学習可能なプロンプトを採用してコンテキストを認識したラベルの意味論と関係を取得します。
その後、KAP と CAP から取得した表現を対話および融合するための対話および融合モジュール (IFM) を提案します。
これまでの研究の一方向融合とは対照的に、私たちは、テキスト特徴と視覚特徴の間の双方向の対話を可能にするデュアルモーダル アテンション (DMA) を導入し、コンテキストを意識したラベル表現と意味論に関連した視覚表現を生成します。これらは、後で類似性の計算に使用されます。
すべてのラベルの最終予測を生成します。
MS-COCO、Pascal VOC 2007、NUS-WIDE を含む 3 つの人気のあるデータセットに対する広範な実験により、PVLR の優位性が実証されました。

要約(オリジナル)

Multi-label image recognition is a fundamental task in computer vision. Recently, vision-language models have made notable advancements in this area. However, previous methods often failed to effectively leverage the rich knowledge within language models and instead incorporated label semantics into visual features in a unidirectional manner. In this paper, we propose a Prompt-driven Visual-Linguistic Representation Learning (PVLR) framework to better leverage the capabilities of the linguistic modality. In PVLR, we first introduce a dual-prompting strategy comprising Knowledge-Aware Prompting (KAP) and Context-Aware Prompting (CAP). KAP utilizes fixed prompts to capture the intrinsic semantic knowledge and relationships across all labels, while CAP employs learnable prompts to capture context-aware label semantics and relationships. Later, we propose an Interaction and Fusion Module (IFM) to interact and fuse the representations obtained from KAP and CAP. In contrast to the unidirectional fusion in previous works, we introduce a Dual-Modal Attention (DMA) that enables bidirectional interaction between textual and visual features, yielding context-aware label representations and semantic-related visual representations, which are subsequently used to calculate similarities and generate final predictions for all labels. Extensive experiments on three popular datasets including MS-COCO, Pascal VOC 2007, and NUS-WIDE demonstrate the superiority of PVLR.

arxiv情報

著者 Hao Tan,Zichang Tan,Jun Li,Jun Wan,Zhen Lei
発行日 2024-01-31 14:39:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク