E5-V: Universal Embeddings with Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は、一般的な視覚と言語の理解において有望な進歩を示しています。
ただし、MLLM を使用したマルチモーダル情報の表現については、ほとんど解明されていないままです。
この研究では、普遍的なマルチモーダル埋め込みを実現するために MLLM を適応させるように設計された新しいフレームワーク E5-V を紹介します。
私たちの調査結果は、以前のアプローチと比較して、マルチモーダルな入力を表現する際の MLLM の大きな可能性を強調しています。
プロンプトを備えた MLLM を活用することで、E5-V は異なるタイプの入力間のモダリティのギャップを効果的に橋渡しし、微調整を行わなくてもマルチモーダルな埋め込みで強力なパフォーマンスを実証します。
私たちは、E5-V に対して単一モダリティトレーニングアプローチを提案します。このアプローチでは、モデルはテキストペアのみでトレーニングされます。
この方法は、画像とテキストのペアに対する従来のマルチモーダルトレーニングに比べて大幅な改善を示し、トレーニングコストを約 95% 削減します。
さらに、このアプローチにより、コストのかかるマルチモーダルなトレーニングデータ収集が不要になります。
4 種類のタスクにわたる広範な実験により、E5-V の有効性が実証されました。
ユニバーサルマルチモーダルモデルとして、E5-V は、単一のモダリティでトレーニングされているにもかかわらず、各タスクで最先端のパフォーマンスを達成するだけでなく、しばしばそれを上回ります。

要約(オリジナル)

Multimodal large language models (MLLMs) have shown promising advancements in general visual and language understanding. However, the representation of multimodal information using MLLMs remains largely unexplored. In this work, we introduce a new framework, E5-V, designed to adapt MLLMs for achieving universal multimodal embeddings. Our findings highlight the significant potential of MLLMs in representing multimodal inputs compared to previous approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the modality gap between different types of inputs, demonstrating strong performance in multimodal embeddings even without fine-tuning. We propose a single modality training approach for E5-V, where the model is trained exclusively on text pairs. This method demonstrates significant improvements over traditional multimodal training on image-text pairs, while reducing training costs by approximately 95%. Additionally, this approach eliminates the need for costly multimodal training data collection. Extensive experiments across four types of tasks demonstrate the effectiveness of E5-V. As a universal multimodal model, E5-V not only achieves but often surpasses state-of-the-art performance in each task, despite being trained on a single modality.

arxiv情報

著者	Ting Jiang,Minghui Song,Zihan Zhang,Haizhen Huang,Weiwei Deng,Feng Sun,Qi Zhang,Deqing Wang,Fuzhen Zhuang
発行日	2024-07-17 14:04:12+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

E5-V: Universal Embeddings with Multimodal Large Language Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー