Multilingual E5 Text Embeddings: A Technical Report

要約

この技術レポートでは、2023 年半ばにリリースされるオープンソースの多言語 E5 テキスト埋め込みモデルのトレーニング方法と評価結果を紹介します。
サイズの異なる 3 つの埋め込みモデル (小 / ベース / 大) が提供されており、推論効率と埋め込み品質のバランスを提供します。
トレーニング手順は英語 E5 モデル レシピに準拠しており、10 億の多言語テキスト ペアに対する対照的な事前トレーニングと、それに続くラベル付きデータセットの組み合わせに対する微調整が含まれます。
さらに、命令調整された新しい埋め込みモデルを導入します。そのパフォーマンスは、同様のサイズの最先端の英語専用モデルと同等です。
モデルのリリースに関する情報は、 https://github.com/microsoft/unilm/tree/master/e5 でご覧いただけます。

要約(オリジナル)

This technical report presents the training methodology and evaluation results of the open-source multilingual E5 text embedding models, released in mid-2023. Three embedding models of different sizes (small / base / large) are provided, offering a balance between the inference efficiency and embedding quality. The training procedure adheres to the English E5 model recipe, involving contrastive pre-training on 1 billion multilingual text pairs, followed by fine-tuning on a combination of labeled datasets. Additionally, we introduce a new instruction-tuned embedding model, whose performance is on par with state-of-the-art, English-only models of similar sizes. Information regarding the model release can be found at https://github.com/microsoft/unilm/tree/master/e5 .

arxiv情報

著者 Liang Wang,Nan Yang,Xiaolong Huang,Linjun Yang,Rangan Majumder,Furu Wei
発行日 2024-02-08 13:47:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク