Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval

要約

テキストビデオ検索の最近の進歩は、主に対照的な学習フレームワークによって推進されています。
ただし、既存の方法は、最適化の緊張の重要なソースを見落としています。表現空間(モダリティギャップと呼ばれる)のテキストとビデオ分布の分離、およびバッチサンプリングにおける偽陰性の有病率です。
これらの要因は、インフォンセ損失の下で矛盾する勾配につながり、安定したアライメントを妨げます。
これを緩和するために、グローバルアンカー表現から張力をオフロードするためにテキストT_IとビデオV_Jの間に学習可能なペア固有の増分DELTA_IJを導入するギャップアウェア検索フレームワークであるGareを提案します。
最初に、信託地域制約の下でのインフォンセ損失の結合された多変量の一次テイラー近似を介して、Delta_IJの理想的な形を導き出し、局所的に最適な降下方向に沿って更新を導くことにより、勾配競合を解決するメカニズムとして明らかにします。
Delta_IJを直接計算するコストがかかるため、各ビデオテキストペア間のセマンティックギャップを条件に条件付けられた軽量のニューラルモジュールを導入し、勾配監督によって導かれる構造対応修正を可能にします。
学習をさらに安定させ、解釈可能性を促進するために、3つのコンポーネントを使用してデルタを正規化します。振動を防ぐための信頼地域制約、セマンティックカバレッジを促進するための方向性の多様性用語、および冗長性を制限する情報ボトルネック。
4つの検索ベンチマークにわたる実験では、Gareが騒々しい監督に対するアライメントの精度と堅牢性を一貫して改善し、ギャップアウェアの緊張緩和の有効性を確認することが示されています。

要約(オリジナル)

Recent advances in text-video retrieval have been largely driven by contrastive learning frameworks. However, existing methods overlook a key source of optimization tension: the separation between text and video distributions in the representation space (referred to as the modality gap), and the prevalence of false negatives in batch sampling. These factors lead to conflicting gradients under the InfoNCE loss, impeding stable alignment. To mitigate this, we propose GARE, a Gap-Aware Retrieval framework that introduces a learnable, pair-specific increment Delta_ij between text t_i and video v_j to offload the tension from the global anchor representation. We first derive the ideal form of Delta_ij via a coupled multivariate first-order Taylor approximation of the InfoNCE loss under a trust-region constraint, revealing it as a mechanism for resolving gradient conflicts by guiding updates along a locally optimal descent direction. Due to the high cost of directly computing Delta_ij, we introduce a lightweight neural module conditioned on the semantic gap between each video-text pair, enabling structure-aware correction guided by gradient supervision. To further stabilize learning and promote interpretability, we regularize Delta using three components: a trust-region constraint to prevent oscillation, a directional diversity term to promote semantic coverage, and an information bottleneck to limit redundancy. Experiments across four retrieval benchmarks show that GARE consistently improves alignment accuracy and robustness to noisy supervision, confirming the effectiveness of gap-aware tension mitigation.

arxiv情報

著者 Jian Xiao,Zijie Song,Jialong Hu,Hao Cheng,Zhenzhen Hu,Jia Li,Richang Hong
発行日 2025-06-02 10:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.MM パーマリンク