要約
対照的な言語イメージ前訓練(CLIP)は、画像とテキストのモダリティを調整することにより、複数のダウンストリームタスクで成功を収めました。
ただし、グローバルな対照学習の性質により、関係や属性などの構成概念を理解するクリップの能力が制限されます。
最近の研究では、組成の理解を改善するためにグローバルなハードネガティブサンプルを採用していますが、これらの方法は、埋め込み空間内の画像からテキストの負のサンプルを強制的に距離を置くことにより、モデルの固有の一般的な能力を大幅に損ないます。
この制限を克服するために、一般的な能力の損失を実質的に緩和しながら、組成の理解を改善するデカップルされたグローバルローカルアライメント(DEGLA)フレームワークを導入します。
モデルの固有の機能の保持を最適化するために、グローバルアライメントプロセスに自己導入メカニズムを組み込み、学習可能な画像テキストエンコーダーを指数関数的な移動平均から派生した凍結教師モデルに合わせます。
自己抵抗の制約の下で、それは微調整中の前提条件の知識の壊滅的な忘却を効果的に緩和します。
構成の理解を改善するために、最初に大規模な言語モデル(LLM)のコンテキスト内学習能力を活用して、5種類にわたって約2mの高品質のネガティブキャプションを構築します。
その後、視覚言語の構成を強化するために、画像グラウンドのコントラスト(IGC)の損失とテキストグラウンドコントラスト(TGC)の損失を提案します。
広範な実験結果は、DeGLAフレームワークの有効性を示しています。
以前の最先端の方法と比較して、DeGLAは、バルス、シュガークレープ、およびAROベンチマーク全体で3.5%の平均強化を達成しました。
同時に、11のデータセットでゼロショット分類タスクで13.0%の平均パフォーマンス改善が得られます。
私たちのコードは、https://github.com/xiaoxing2001/deglaでリリースされます
要約(オリジナル)
Contrastive Language-Image Pre-training (CLIP) has achieved success on multiple downstream tasks by aligning image and text modalities. However, the nature of global contrastive learning limits CLIP’s ability to comprehend compositional concepts, such as relations and attributes. Although recent studies employ global hard negative samples to improve compositional understanding, these methods significantly compromise the model’s inherent general capabilities by forcibly distancing textual negative samples from images in the embedding space. To overcome this limitation, we introduce a Decoupled Global-Local Alignment (DeGLA) framework that improves compositional understanding while substantially mitigating losses in general capabilities. To optimize the retention of the model’s inherent capabilities, we incorporate a self-distillation mechanism within the global alignment process, aligning the learnable image-text encoder with a frozen teacher model derived from an exponential moving average. Under the constraint of self-distillation, it effectively mitigates the catastrophic forgetting of pretrained knowledge during fine-tuning. To improve compositional understanding, we first leverage the in-context learning capability of Large Language Models (LLMs) to construct about 2M high-quality negative captions across five types. Subsequently, we propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC) loss to enhance vision-language compositionally. Extensive experimental results demonstrate the effectiveness of the DeGLA framework. Compared to previous state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average performance improvement of 13.0% on zero-shot classification tasks across eleven datasets. Our code will be released at https://github.com/xiaoxing2001/DeGLA
arxiv情報
著者 | Xiaoxing Hu,Kaicheng Yang,Jun Wang,Haoran Xu,Ziyong Feng,Yupei Wang |
発行日 | 2025-04-23 15:20:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google