Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models

要約

ビジョン言語モデル (VLM) は、視覚的な質問応答と画像キャプションの優れた機能を実証し、視覚モデルと言語モデルの間の重要なリンクとして機能します。
ただし、既存のオープンソース VLM は、事前トレーニングされ凍結されたビジョン エンコーダー (CLIP など) に大きく依存しています。
CLIP はさまざまな領域にわたって堅牢であるにもかかわらず、依然として無視できない画像理解エラーが発生します。
これらのエラーは VLM 応答に伝播し、最適なパフォーマンスが得られません。
私たちの研究では、VLM 内のビジョン エンコーダを更新するための効率的かつ堅牢な方法を提案します。
私たちのアプローチは、エンコーダーを選択的かつローカルに更新することで、全体的な堅牢性を維持しながら、以前にミスが発生したデータのパフォーマンスを大幅に向上させます。
さらに、継続的な少数ショットの更新中に私たちの方法の有効性を実証します。
理論的根拠、一般性、計算効率が私たちのアプローチの特徴です。

要約(オリジナル)

Vision language models (VLMs) demonstrate impressive capabilities in visual question answering and image captioning, acting as a crucial link between visual and language models. However, existing open-source VLMs heavily rely on pretrained and frozen vision encoders (such as CLIP). Despite CLIP’s robustness across diverse domains, it still exhibits non-negligible image understanding errors. These errors propagate to the VLM responses, resulting in sub-optimal performance. In our work, we propose an efficient and robust method for updating vision encoders within VLMs. Our approach selectively and locally updates encoders, leading to substantial performance improvements on data where previous mistakes occurred, while maintaining overall robustness. Furthermore, we demonstrate the effectiveness of our method during continual few-shot updates. Theoretical grounding, generality, and computational efficiency characterize our approach.

arxiv情報

著者 Aristeidis Panos,Rahaf Aljundi,Daniel Olmeda Reino,Richard E Turner
発行日 2024-07-23 14:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク