Text-Region Matching for Multi-Label Image Recognition with Missing Labels

要約

最近、大規模なビジュアル言語事前トレーニング (VLP) モデルが、さまざまな下流タスクにわたって優れたパフォーマンスを実証しています。
これらの進歩に動機づけられて、VLP プロンプトチューニングテクノロジーを活用した、ラベルが欠落しているマルチラベル画像認識における先駆的な取り組みが生まれています。
ただし、複雑なセマンティクスのギャップや、マルチラベル画像内のラベルの欠落により、通常はテキストと視覚の特徴をうまく一致させることができません。
この課題に取り組むために、\textbf{M}ulti-\textbf{L} レベルのプロンプト チューニングを最適化するための \textbf{T}ext-\textbf{R}egion \textbf{M}atching、つまり TRM-ML を提案します。
意味のあるクロスモーダルマッチングを強化するための新しい方法。
既存の方法と比較して、画像全体やピクセルではなくカテゴリを認識した領域の情報を探索することを推奨します。これは、1 対 1 の照合方法でテキスト表現と視覚表現の間の意味論的なギャップを埋めるのに役立ちます。
同時に、テキストモダリティと視覚モダリティの間の意味論的なギャップを狭め、クラス内およびクラス間の関係を確立するために、マルチモーダル対照学習をさらに導入します。
さらに、欠落ラベルに対処するために、カテゴリ内およびカテゴリ間の意味論的関係を活用して未知のラベルを推定し、擬似ラベルの生成を容易にするマルチモーダル カテゴリ プロトタイプを提案します。
MS-COCO、PASCAL VOC、Visual Genome、NUS-WIDE、および CUB-200-211 ベンチマーク データセットでの広範な実験により、提案されたフレームワークが最先端の手法を大幅に上回ることが実証されました。
私たちのコードは、\href{https://github.com/yu-gi-oh-leilei/TRM-ML}{\raisebox{-1pt}{\faGithub}} から入手できます。

要約(オリジナル)

Recently, large-scale visual language pre-trained (VLP) models have demonstrated impressive performance across various downstream tasks. Motivated by these advancements, pioneering efforts have emerged in multi-label image recognition with missing labels, leveraging VLP prompt-tuning technology. However, they usually cannot match text and vision features well, due to complicated semantics gaps and missing labels in a multi-label image. To tackle this challenge, we propose \textbf{T}ext-\textbf{R}egion \textbf{M}atching for optimizing \textbf{M}ulti-\textbf{L}abel prompt tuning, namely TRM-ML, a novel method for enhancing meaningful cross-modal matching. Compared to existing methods, we advocate exploring the information of category-aware regions rather than the entire image or pixels, which contributes to bridging the semantic gap between textual and visual representations in a one-to-one matching manner. Concurrently, we further introduce multimodal contrastive learning to narrow the semantic gap between textual and visual modalities and establish intra-class and inter-class relationships. Additionally, to deal with missing labels, we propose a multimodal category prototype that leverages intra- and inter-category semantic relationships to estimate unknown labels, facilitating pseudo-label generation. Extensive experiments on the MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, and CUB-200-211 benchmark datasets demonstrate that our proposed framework outperforms the state-of-the-art methods by a significant margin. Our code is available here\href{https://github.com/yu-gi-oh-leilei/TRM-ML}{\raisebox{-1pt}{\faGithub}}.

arxiv情報

著者 Leilei Ma,Hongxing Xie,Lei Wang,Yanping Fu,Dengdi Sun,Haifeng Zhao
発行日 2024-08-07 14:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク