Unveiling Encoder-Free Vision-Language Models

要約

既存のビジョン言語モデル (VLM) は、主にビジョン エンコーダに依存して視覚特徴を抽出し、その後に視覚言語タスク用の大規模言語モデル (LLM) が続きます。
ただし、ビジョン エンコーダは、解像度、アスペクト比、意味論的事前条件などの視覚表現を抽象化する際に強い帰納的バイアスを設定し、VLM の柔軟性と効率を妨げる可能性があります。
シームレスなビジョンと言語入力を受け入れる、つまりビジョンエンコーダーを使用しない純粋な VLM のトレーニングは依然として困難であり、ほとんど検討されていません。
経験的観察により、エンコーダを使用しない直接トレーニングでは、収束が遅くなり、パフォーマンスに大きなギャップが生じることが明らかになりました。
この研究では、エンコーダベースのモデルとエンコーダなしのモデルの間のギャップを埋め、純粋な VLM に向けたシンプルかつ効果的なトレーニング レシピを提示します。
具体的には、徹底的な実験を通じて、エンコーダフリーの VLM を効率的にトレーニングするための重要な側面を明らかにします。(1) 1 つの統合デコーダ内で視覚言語表現のブリッジング。
(2) 特別な監視による視覚認識能力の強化。
これらの戦略により、効率的にトレーニングおよび転送できるエンコーダー不要のビジョン言語モデルである EVE を立ち上げます。
特に、EVE は、公的にアクセス可能な 3,500 万のデータのみを利用することで、複数の視覚言語ベンチマークにわたって同様の容量のエンコーダーベースの VLM に見事に匹敵します。
謎の訓練手順と未公開の訓練データにより、同等のFuyu-8Bを大幅に上回ります。
私たちは、EVE がモダリティ全体で純粋なデコーダーのみのアーキテクチャを開発するための透過的で効率的なルートを提供すると信じています。
私たちのコードとモデルは、https://github.com/baaivision/EVE で公開されています。

要約(オリジナル)

Existing vision-language models (VLMs) mostly rely on vision encoders to extract visual features followed by large language models (LLMs) for visual-language tasks. However, the vision encoders set a strong inductive bias in abstracting visual representation, e.g., resolution, aspect ratio, and semantic priors, which could impede the flexibility and efficiency of the VLMs. Training pure VLMs that accept the seamless vision and language inputs, i.e., without vision encoders, remains challenging and rarely explored. Empirical observations reveal that direct training without encoders results in slow convergence and large performance gaps. In this work, we bridge the gap between encoder-based and encoder-free models, and present a simple yet effective training recipe towards pure VLMs. Specifically, we unveil the key aspects of training encoder-free VLMs efficiently via thorough experiments: (1) Bridging vision-language representation inside one unified decoder; (2) Enhancing visual recognition capability via extra supervision. With these strategies, we launch EVE, an encoder-free vision-language model that can be trained and forwarded efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can impressively rival the encoder-based VLMs of similar capacities across multiple vision-language benchmarks. It significantly outperforms the counterpart Fuyu-8B with mysterious training procedures and undisclosed training data. We believe that EVE provides a transparent and efficient route for developing a pure decoder-only architecture across modalities. Our code and models are publicly available at: https://github.com/baaivision/EVE.

arxiv情報

著者 Haiwen Diao,Yufeng Cui,Xiaotong Li,Yueze Wang,Huchuan Lu,Xinlong Wang
発行日 2024-06-17 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク