HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding

要約

大規模言語モデル (LLM) の急速な進歩により、ビジョン言語モデル (VLM) の開発が促進されました。
モダリティ固有のエンコーダを回避するモノリシック VLM は、構成型エンコーダに代わる有望な代替手段となりますが、パフォーマンスが劣るという課題に直面しています。
既存のモノリシック VLM のほとんどは、視覚能力を獲得するために事前トレーニングされた LLM を調整する必要があり、言語能力が低下する可能性があります。
このジレンマに対処するために、このホワイト ペーパーでは、HoVLE という名前の新しい高性能モノリシック VLM を紹介します。
画像の埋め込みがテキストの埋め込みと一致している場合、LLM は画像を解釈できることが示されていることに注意してください。
現在のモノリシック VLM の課題は、実際には、視覚入力と言語入力の両方に対する総合的な埋め込みモジュールが欠如していることにあります。
したがって、HoVLE では、ビジュアル入力とテキスト入力を共有スペースに変換する総合的な埋め込みモジュールを導入し、LLM がテキストと同じ方法で画像を処理できるようにします。
さらに、総合的な埋め込みモジュールを強化するために、多段階のトレーニング戦略が慎重に設計されています。
まず、事前にトレーニングされたビジョン エンコーダーから視覚的特徴を抽出し、LLM からテキスト埋め込みを抽出するようにトレーニングされ、ペアになっていないランダムな画像とテキスト トークンを使用した大規模なトレーニングが可能になります。
さらに、モデル全体でマルチモーダル データのネクスト トークン予測が行われ、埋め込みが調整されます。
最後に、命令チューニング ステージが組み込まれています。
私たちの実験では、HoVLE がさまざまなベンチマークで主要な構成モデルに近いパフォーマンスを達成し、以前のモノリシック モデルを大幅に上回っていることがわかりました。
モデルは https://huggingface.co/OpenGVLab/HoVLE で入手できます。

要約(オリジナル)

The rapid advance of Large Language Models (LLMs) has catalyzed the development of Vision-Language Models (VLMs). Monolithic VLMs, which avoid modality-specific encoders, offer a promising alternative to the compositional ones but face the challenge of inferior performance. Most existing monolithic VLMs require tuning pre-trained LLMs to acquire vision abilities, which may degrade their language capabilities. To address this dilemma, this paper presents a novel high-performance monolithic VLM named HoVLE. We note that LLMs have been shown capable of interpreting images, when image embeddings are aligned with text embeddings. The challenge for current monolithic VLMs actually lies in the lack of a holistic embedding module for both vision and language inputs. Therefore, HoVLE introduces a holistic embedding module that converts visual and textual inputs into a shared space, allowing LLMs to process images in the same way as texts. Furthermore, a multi-stage training strategy is carefully designed to empower the holistic embedding module. It is first trained to distill visual features from a pre-trained vision encoder and text embeddings from the LLM, enabling large-scale training with unpaired random images and text tokens. The whole model further undergoes next-token prediction on multi-modal data to align the embeddings. Finally, an instruction-tuning stage is incorporated. Our experiments show that HoVLE achieves performance close to leading compositional models on various benchmarks, outperforming previous monolithic models by a large margin. Model available at https://huggingface.co/OpenGVLab/HoVLE.

arxiv情報

著者 Chenxin Tao,Shiqian Su,Xizhou Zhu,Chenyu Zhang,Zhe Chen,Jiawen Liu,Wenhai Wang,Lewei Lu,Gao Huang,Yu Qiao,Jifeng Dai
発行日 2024-12-20 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク