要約
本論文では、M3-Embeddingと呼ばれる、多言語、多機能、多グラニュラリティに対応する新しい埋め込みモデルを紹介する。M3-Embeddingは、多言語、多機能、多グラニュラリティを特徴とする。M3-Embeddingは、100以上の言語をサポートすることができ、多言語検索タスクやクロスリンガル検索タスクにおいて最先端の性能を発揮する。エンベッディング・モデルの3つの一般的な検索機能である、高密度検索、マルチベクトル検索、スパース検索を同時に実行することができ、実世界のIRアプリケーションに統一的なモデル基盤を提供する。M3-Embdingは、短い文章から最大8192トークンの長い文書まで、様々な粒度の入力を処理することができる。M3-Embeddingの効果的な学習には以下の技術的貢献が含まれる。異なる検索機能からの関連性スコアを教師信号として統合することで、学習の質を向上させる。また、バッチ戦略を最適化することで、大きなバッチサイズと高い学習スループットを可能にし、埋め込みデータの識別性を確保する。我々の知る限り、M3-Embeddingはこのような強力な汎用性を実現した最初の埋め込みモデルである。モデルとコードはhttps://github.com/FlagOpen/FlagEmbedding。
要約(オリジナル)
In this paper, we present a new embedding model, called M3-Embedding, which is distinguished for its versatility in Multi-Linguality, Multi-Functionality, and Multi-Granularity. It can support more than 100 working languages, leading to new state-of-the-art performances on multi-lingual and cross-lingual retrieval tasks. It can simultaneously perform the three common retrieval functionalities of embedding model: dense retrieval, multi-vector retrieval, and sparse retrieval, which provides a unified model foundation for real-world IR applications. It is able to process inputs of different granularities, spanning from short sentences to long documents of up to 8192 tokens. The effective training of M3-Embedding involves the following technical contributions. We propose a novel self-knowledge distillation approach, where the relevance scores from different retrieval functionalities can be integrated as the teacher signal to enhance the training quality. We also optimize the batching strategy, enabling a large batch size and high training throughput to ensure the discriminativeness of embeddings. To the best of our knowledge, M3-Embedding is the first embedding model which realizes such a strong versatility. The model and code will be publicly available at https://github.com/FlagOpen/FlagEmbedding.
arxiv情報
著者 | Jianlv Chen,Shitao Xiao,Peitian Zhang,Kun Luo,Defu Lian,Zheng Liu |
発行日 | 2024-02-05 17:26:49+00:00 |
arxivサイト | arxiv_id(pdf) |