Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

要約

この論文では、ゼロショットのマルチモーダル タスクのパフォーマンスを犠牲にすることなく、事前トレーニングされた視覚言語モデル (VLM) の構成的理解を強化する新しい方法を提案します。
従来の微調整アプローチでは、主に画像とテキストのグローバル表現を対比するグローバル ハード ネガティブ (HN) 損失の使用により、マルチモーダル機能の低下を犠牲にして構成推論を改善することがよくあります。
このグローバルな HN 損失により、元の HN テキストと非常に類似した HN テキストが押し出され、モデルのマルチモーダル表現が損傷します。
この制限を克服するために、局所的なハードネガティブ損失と選択的校正正則化を統合する、きめの細かい選択的校正済み CLIP (FSC-CLIP) を提案します。
これらの革新により、モデルの表現上の整合性を維持しながら、きめの細かいネガティブ監視が提供されます。
構成性とマルチモーダル タスクの両方に関するさまざまなベンチマークにわたる広範な評価により、FSC-CLIP が最先端のモデルと同等の構成性を達成するだけでなく、強力なマルチモーダル機能も保持していることがわかりました。
コードは https://github.com/ytaek-oh/fsc-clip から入手できます。

要約(オリジナル)

In this paper, we propose a new method to enhance compositional understanding in pre-trained vision and language models (VLMs) without sacrificing performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches often improve compositional reasoning at the cost of degrading multi-modal capabilities, primarily due to the use of global hard negative (HN) loss, which contrasts global representations of images and texts. This global HN loss pushes HN texts that are highly similar to the original ones, damaging the model’s multi-modal representations. To overcome this limitation, we propose Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard negative loss and selective calibrated regularization. These innovations provide fine-grained negative supervision while preserving the model’s representational integrity. Our extensive evaluations across diverse benchmarks for both compositionality and multi-modal tasks show that FSC-CLIP not only achieves compositionality on par with state-of-the-art models but also retains strong multi-modal capabilities. Code is available at: https://github.com/ytaek-oh/fsc-clip.

arxiv情報

著者 Youngtaek Oh,Jae Won Cho,Dong-Jin Kim,In So Kweon,Junmo Kim
発行日 2024-10-07 17:16:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク