Cross-modal Active Complementary Learning with Self-refining Correspondence

要約

最近、画像とテキストのマッチングが学界や産業界からますます注目を集めています。これは、視覚的モダリティとテキストモダリティにわたる潜在的な対応関係を理解するための基礎です。
ただし、既存の手法のほとんどは、遍在する注釈ノイズ、別名ノイズ対応 (NC) を無視しながら、トレーニング ペアが適切に調整されていることを暗黙的に想定しているため、必然的にパフォーマンスの低下につながります。
このようなノイズに対処しようとする方法もありますが、依然として 2 つの困難な問題に直面しています。それは、過剰な記憶/過剰適合と、特に高ノイズ下での NC の補正の信頼性が低いことです。
2 つの問題に対処するために、我々は、既存の手法の堅牢性を向上させるために、新しいアクティブ相補損失 (ACL) と効率的な自己調整型対応補正 (SCC) の恩恵を受ける、一般化されたクロスモーダル ロバスト相補学習フレームワーク (CRCL) を提案します。

具体的には、ACL は能動学習と相補学習の損失を利用して誤った監視を行うリスクを軽減し、NC に対する堅牢性が理論的および実験的に証明されています。
SCC は、運動量補正を伴う複数の自己調整プロセスを利用して対応を修正するための受容野を拡大し、それによってエラーの蓄積を軽減し、正確で安定した修正を実現します。
私たちは、合成および現実世界のノイズの多い対応に対する CRCL の優れた堅牢性を検証するために、3 つの画像テキスト ベンチマーク、つまり Flickr30K、MS-COCO、および CC152K で広範な実験を実行しました。

要約(オリジナル)

Recently, image-text matching has attracted more and more attention from academia and industry, which is fundamental to understanding the latent correspondence across visual and textual modalities. However, most existing methods implicitly assume the training pairs are well-aligned while ignoring the ubiquitous annotation noise, a.k.a noisy correspondence (NC), thereby inevitably leading to a performance drop. Although some methods attempt to address such noise, they still face two challenging problems: excessive memorizing/overfitting and unreliable correction for NC, especially under high noise. To address the two problems, we propose a generalized Cross-modal Robust Complementary Learning framework (CRCL), which benefits from a novel Active Complementary Loss (ACL) and an efficient Self-refining Correspondence Correction (SCC) to improve the robustness of existing methods. Specifically, ACL exploits active and complementary learning losses to reduce the risk of providing erroneous supervision, leading to theoretically and experimentally demonstrated robustness against NC. SCC utilizes multiple self-refining processes with momentum correction to enlarge the receptive field for correcting correspondences, thereby alleviating error accumulation and achieving accurate and stable corrections. We carry out extensive experiments on three image-text benchmarks, i.e., Flickr30K, MS-COCO, and CC152K, to verify the superior robustness of our CRCL against synthetic and real-world noisy correspondences.

arxiv情報

著者 Yang Qin,Yuan Sun,Dezhong Peng,Joey Tianyi Zhou,Xi Peng,Peng Hu
発行日 2023-10-26 15:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク