mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data

要約

マルチモーダル埋め込みモデルは、テキストや画像などのさまざまなモダリティからデータを統一された表現空間にマッピングする能力に大きな注目を集めています。
ただし、限られたラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げます。
最近のアプローチでは、この問題に対処するためにデータ統合を活用していますが、合成データの品質は重要なボトルネックのままです。
この作業では、高品質の合成マルチモーダルデータの3つの基準を特定します。
まず、幅広い範囲により、生成されたデータが多様なタスクとモダリティをカバーし、さまざまなダウンストリームシナリオに適用できるようになります。
第二に、堅牢なクロスモーダルアライメントにより、異なるモダリティがセマンティブに一貫性があります。
第三に、高い忠実度は、合成データがその信頼性を高めるために現実的な詳細を維持することを保証します。
これらの原則に導かれて、次のデータセットを合成します。(1)幅広いタスク、モダリティの組み合わせ、言語をカバーします。
)現実世界の画像を正確で関連するテキストで組み込み、自己評価と改良により忠実度を確保します。
これらの高品質の合成および標識データセットを活用して、マルチモーダル多言語E5モデルMME5をトレーニングします。
広範な実験は、MME5がMMEBベンチマークで最先端のパフォーマンスを達成し、XTDベンチマークで優れた多言語パフォーマンスを達成することを示しています。
コード、データセット、モデルはhttps://github.com/haon-chen/mme5でリリースされています。

要約(オリジナル)

Multimodal embedding models have gained significant attention for their ability to map data from different modalities, such as text and images, into a unified representation space. However, the limited labeled multimodal data often hinders embedding performance. Recent approaches have leveraged data synthesis to address this problem, yet the quality of synthetic data remains a critical bottleneck. In this work, we identify three criteria for high-quality synthetic multimodal data. First, broad scope ensures that the generated data covers diverse tasks and modalities, making it applicable to various downstream scenarios. Second, robust cross-modal alignment makes different modalities semantically consistent. Third, high fidelity ensures that the synthetic data maintains realistic details to enhance its reliability. Guided by these principles, we synthesize datasets that: (1) cover a wide range of tasks, modality combinations, and languages, (2) are generated via a deep thinking process within a single pass of a multimodal large language model, and (3) incorporate real-world images with accurate and relevant texts, ensuring fidelity through self-evaluation and refinement. Leveraging these high-quality synthetic and labeled datasets, we train a multimodal multilingual E5 model mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art performance on the MMEB Benchmark and superior multilingual performance on the XTD benchmark. Our codes, datasets and models are released in https://github.com/haon-chen/mmE5.

arxiv情報

著者 Haonan Chen,Liang Wang,Nan Yang,Yutao Zhu,Ziliang Zhao,Furu Wei,Zhicheng Dou
発行日 2025-02-12 15:03:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク