PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval

要約

クロスモーダル検索の領域では、マルチメディア内の多様なモダリティをシームレスに統合することは、特にノイズの多い対応学習(NCL)によってもたらされる複雑さを考えると、依然として困難な課題である。このようなノイズは多くの場合、不一致のデータ対に起因しており、従来のノイズの多いラベルとは異なる重要な障害となっている。本稿では、この課題に対処するために、擬似分類に基づく擬似キャプション(PC$^2$)フレームワークを紹介する。PC$^2$は3つの戦略を提供する。第一に、キャプションをカテゴリラベルとして解釈する補助的な「擬似分類」タスクを確立し、非造影的なメカニズムを通して画像とテキストの意味的類似性を学習するようモデルを誘導する。第二に、一般的なマージンベースの手法とは異なり、PC$^2$の擬似分類能力を利用することで、擬似キャプションを生成し、不一致の各ペアに対して、より有益で具体的な監視を提供する。第三に、擬似分類の振動を利用して、対応関係の補正を支援する。技術的な貢献に加えて、我々はNoise of Web (NoW)と呼ばれる現実的なNCLデータセットを開発した。PC$^2$の経験的評価により、様々なNCL設定によるシミュレーションと現実的なデータセットの両方において、既存のロバスト・クロスモーダル検索技術に対する顕著な改善を示す。寄稿されたデータセットとソースコードはhttps://github.com/alipay/PC2-NoiseofWeb。

要約(オリジナル)

In the realm of cross-modal retrieval, seamlessly integrating diverse modalities within multimedia remains a formidable challenge, especially given the complexities introduced by noisy correspondence learning (NCL). Such noise often stems from mismatched data pairs, which is a significant obstacle distinct from traditional noisy labels. This paper introduces Pseudo-Classification based Pseudo-Captioning (PC$^2$) framework to address this challenge. PC$^2$ offers a threefold strategy: firstly, it establishes an auxiliary ‘pseudo-classification’ task that interprets captions as categorical labels, steering the model to learn image-text semantic similarity through a non-contrastive mechanism. Secondly, unlike prevailing margin-based techniques, capitalizing on PC$^2$’s pseudo-classification capability, we generate pseudo-captions to provide more informative and tangible supervision for each mismatched pair. Thirdly, the oscillation of pseudo-classification is borrowed to assistant the correction of correspondence. In addition to technical contributions, we develop a realistic NCL dataset called Noise of Web (NoW), which could be a new powerful NCL benchmark where noise exists naturally. Empirical evaluations of PC$^2$ showcase marked improvements over existing state-of-the-art robust cross-modal retrieval techniques on both simulated and realistic datasets with various NCL settings. The contributed dataset and source code are released at https://github.com/alipay/PC2-NoiseofWeb.

arxiv情報

著者 Yue Duan,Zhangxuan Gu,Zhenzhe Ying,Lei Qi,Changhua Meng,Yinghuan Shi
発行日 2024-08-02 15:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.MM パーマリンク