Improved Probabilistic Image-Text Representations

要約

基本的なビジョン言語 (VL) タスクである画像テキスト マッチング (ITM) タスクは、多重性と不完全な注釈から生じる固有の曖昧さという問題に悩まされています。
決定論的関数は曖昧さを捉えるのに十分強力ではないため、この課題に取り組むために確率的埋め込みの探索が求められています。
しかし、既存の確率的 ITM アプローチには 2 つの重要な欠点があります。
モンテカルロ近似による大量の計算の負担と、大量の偽陰性による損失飽和の問題です。
この問題を克服するために、この論文では、閉じた形式の解法で新しい確率的距離を導入することにより、改良された確率的クロスモーダル埋め込み (PCME++ と呼ばれる) を紹介します。
さらに、PCME++ をさらに強化するために 2 つの最適化手法が提案されています。1 つは、大量の偽陰性の下での悪影響を防ぐための擬陽性の組み込みです。
2 つ目は、確率的マッチングのための混合サンプル データの拡張です。
MS-COCO Caption と 2 つの拡張ベンチマーク、CxC および ECCV Caption に関する実験結果は、最先端の ITM 手法と比較した PCME++ の有効性を実証しています。
PCME++ の堅牢性は、ノイズの多い画像とテキストの対応下でも評価されます。
さらに、ゼロショット分類のための自動プロンプト フィルタリングにおける PCME++ の潜在的な適用可能性が示されています。
コードは https://github.com/naver-ai/pcmepp で入手できます。

要約(オリジナル)

Image-Text Matching (ITM) task, a fundamental vision-language (VL) task, suffers from the inherent ambiguity arising from multiplicity and imperfect annotations. Deterministic functions are not sufficiently powerful to capture ambiguity, prompting the exploration of probabilistic embeddings to tackle the challenge. However, the existing probabilistic ITM approach encounters two key shortcomings; the burden of heavy computations due to the Monte Carlo approximation, and the loss saturation issue in the face of abundant false negatives. To overcome the issues, this paper presents an improved Probabilistic Cross-Modal Embeddings (named PCME++) by introducing a new probabilistic distance with a closed-form solution. In addition, two optimization techniques are proposed to enhance PCME++ further: first, the incorporation of pseudo-positives to prevent the negative effect under massive false negatives; second, mixed sample data augmentation for probabilistic matching. Experimental results on MS-COCO Caption and two extended benchmarks, CxC and ECCV Caption, demonstrate the effectiveness of PCME++ compared to state-of-the-art ITM methods. The robustness of PCME++ is also evaluated under noisy image-text correspondences. In addition, the potential applicability of PCME++ in automatic prompt-filtering for zero-shot classification is shown. The code is available at https://github.com/naver-ai/pcmepp

arxiv情報

著者 Sanghyuk Chun
発行日 2024-04-09 13:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク