要約
CLIP のような対照的にトレーニングされた視覚言語モデル (VLM) は、識別視覚言語表現学習のための事実上のアプローチとなっています。
ただし、これらのモデルの言語理解は限られており、多くの場合「言葉の袋」のような動作を示します。
同時に、視覚エンコーダと LLM を組み合わせた大規模視覚言語モデル (LVLM) は、詳細な視覚言語推論が可能であることが示されていますが、その自己回帰的な性質により、識別タスクにはあまり適していません。
この研究では、「両方の長所」、つまり強力な識別能力と構成能力をもたらす LVLM の識別微調整のための新しいトレーニング アプローチを組み合わせることを提案します。
基本的に、私たちのアプローチは生成的 LVLM を識別的 LVLM に変換し、強化された言語理解と組み合わせた強力な画像とテキストの識別機能を解放します。
私たちの貢献には以下が含まれます: (1) 対照的予測損失とネクストトークン予測損失の両方を使用してモデルをトレーニングするために可変長および粒度の画像とテキストのペアを利用する、慎重に設計されたトレーニング/最適化フレームワーク。
これには、フレームワークのコンポーネントの必要性を正当化するアブレーション研究が伴います。
(2) ソフト プロンプトと LoRA アダプターの組み合わせを使用した、パラメーター効率の高い適応方法。
(3) 標準的な画像テキスト検索ベンチマークや構成性の顕著な向上など、同様のサイズの最先端の CLIP のようなモデルに比べて大幅な改善が行われています。
要約(オリジナル)
Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the de facto approach for discriminative vision-language representation learning. However, these models have limited language understanding, often exhibiting a ‘bag of words’ behavior. At the same time, Large Vision-Language Models (LVLMs), which combine vision encoders with LLMs, have been shown capable of detailed vision-language reasoning, yet their autoregressive nature renders them less suitable for discriminative tasks. In this work, we propose to combine ‘the best of both worlds’: a new training approach for discriminative fine-tuning of LVLMs that results in strong discriminative and compositional capabilities. Essentially, our approach converts a generative LVLM into a discriminative one, unlocking its capability for powerful image-text discrimination combined with enhanced language understanding. Our contributions include: (1) A carefully designed training/optimization framework that utilizes image-text pairs of variable length and granularity for training the model with both contrastive and next-token prediction losses. This is accompanied by ablation studies that justify the necessity of our framework’s components. (2) A parameter-efficient adaptation method using a combination of soft prompting and LoRA adapters. (3) Significant improvements over state-of-the-art CLIP-like models of similar size, including standard image-text retrieval benchmarks and notable gains in compositionality.
arxiv情報
著者 | Yassine Ouali,Adrian Bulat,Alexandros Xenos,Anestis Zaganidis,Ioannis Maniadis Metaxas,Georgios Tzimiropoulos,Brais Martinez |
発行日 | 2024-12-05 17:54:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google