Ovis: Structural Embedding Alignment for Multimodal Large Language Model

要約

現在のマルチモーダル大規模言語モデル (MLLM) は通常、MLP などのコネクタを介して、事前トレーニングされた LLM を別の事前トレーニングされたビジョン トランスフォーマーと統合し、LLM に視覚機能を与えます。
ただし、MLLM の 2 つの埋め込み戦略 (埋め込みルックアップ テーブルに基づく構造テキスト埋め込みと、ビジョン エンコーダによって直接生成される連続埋め込み) 間の不整合により、視覚情報とテキスト情報のよりシームレスな融合が困難になります。
私たちは、視覚的埋め込みとテキスト埋め込みを構造的に調整するように設計された新しい MLLM アーキテクチャである Ovis を提案します。
Ovis は、追加の学習可能なビジュアル埋め込みテーブルをビジュアル エンコーダーのプロセスに統合します。
豊富なビジュアル セマンティクスをキャプチャするために、各イメージ パッチはビジュアル エンベディング テーブルに複数回インデックスを付け、その結果、インデックス付けされたエンベディングの確率的な組み合わせである最終的なビジュアル エンベディングが得られます。
この構造的アプローチは、テキスト埋め込みの生成に使用される方法を反映しています。
さまざまなマルチモーダル ベンチマークの経験的評価では、Ovis が同様のパラメーター スケールのオープンソース MLLM よりも優れたパフォーマンスを示し、全体としては独自モデルの Qwen-VL-Plus をも上回っています。
これらの結果は、MLLM アーキテクチャ設計を進歩させ、より効果的なマルチモーダル学習を促進するための、Ovis の構造化された視覚表現の可能性を強調しています。
コード、データセット、モデルは https://github.com/AIDC-AI/Ovis で入手できます。

要約(オリジナル)

Current Multimodal Large Language Models (MLLMs) typically integrate a pre-trained LLM with another pre-trained vision transformer through a connector, such as an MLP, endowing the LLM with visual capabilities. However, the misalignment between two embedding strategies in MLLMs — the structural textual embeddings based on an embedding look-up table and the continuous embeddings generated directly by the vision encoder — makes challenges for a more seamless fusion of visual and textual information. We propose Ovis, a novel MLLM architecture designed to structurally align visual and textual embeddings. Ovis integrates an additional learnable visual embedding table into the visual encoder’s process. To capture rich visual semantics, each image patch indexes the visual embedding table multiple times, resulting in a final visual embedding that is a probabilistic combination of the indexed embeddings. This structural approach mirrors the method used for generating textual embeddings. Empirical evaluations on various multimodal benchmarks show that Ovis outperforms open-source MLLMs of similar parameter scales and even surpasses the proprietary model Qwen-VL-Plus overall. These results highlight the potential of Ovis’ structured visual representation for advancing MLLM architectural design and promoting more effective multimodal learning. Code, datasets, and models are available at https://github.com/AIDC-AI/Ovis.

arxiv情報

著者 Shiyin Lu,Yang Li,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang,Han-Jia Ye
発行日 2024-06-17 17:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク