要約
この作業では、QWEN3 Foundationモデルに基づいて構築されたテキスト埋め込みおよび再ランキング機能で、その前身であるGTE-QWENシリーズに対する大幅な進歩であるQWEN3 Embeddingシリーズを紹介します。
多言語テキストの理解と生成におけるQWEN3 LLMSの堅牢な機能を活用して、当社の革新的なマルチステージトレーニングパイプラインは、大規模な監督なしの事前トレーニングと、高品質のデータセットでの監視された微調整を組み合わせています。
効果的なモデルのマージ戦略により、QWEN3埋め込みシリーズの堅牢性と適応性がさらに保証されます。
トレーニングプロセス中、QWEN3 LLMSはバックボーンモデルとしてだけでなく、複数のドメインと言語で高品質でリッチで多様なトレーニングデータを合成する上で重要な役割を果たし、トレーニングパイプラインを強化します。
QWEN3 Embeddingシリーズは、埋め込みタスクと再ランキングの両方にモデルサイズ(0.6b、4b、8b)のスペクトルを提供し、ユーザーが効率または効果のために最適化できる多様な展開シナリオに対処します。
経験的評価は、QWEN3エンミングシリーズが多様なベンチマーク全体で最先端の結果を達成することを示しています。
特に、テキスト埋め込みのための多言語評価ベンチマークMTEB、およびコード検索、横断的検索、多言語検索などのさまざまな検索タスクに優れています。
再現性を促進し、コミュニティ主導の研究開発を促進するために、QWEN3埋め込みモデルはApache 2.0ライセンスの下で公開されています。
要約(オリジナル)
In this work, we introduce the Qwen3 Embedding series, a significant advancement over its predecessor, the GTE-Qwen series, in text embedding and reranking capabilities, built upon the Qwen3 foundation models. Leveraging the Qwen3 LLMs’ robust capabilities in multilingual text understanding and generation, our innovative multi-stage training pipeline combines large-scale unsupervised pre-training with supervised fine-tuning on high-quality datasets. Effective model merging strategies further ensure the robustness and adaptability of the Qwen3 Embedding series. During the training process, the Qwen3 LLMs serve not only as backbone models but also play a crucial role in synthesizing high-quality, rich, and diverse training data across multiple domains and languages, thus enhancing the training pipeline. The Qwen3 Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both embedding and reranking tasks, addressing diverse deployment scenarios where users can optimize for either efficiency or effectiveness. Empirical evaluations demonstrate that the Qwen3 Embedding series achieves state-of-the-art results across diverse benchmarks. Notably, it excels on the multilingual evaluation benchmark MTEB for text embedding, as well as in various retrieval tasks, including code retrieval, cross-lingual retrieval and multilingual retrieval. To facilitate reproducibility and promote community-driven research and development, the Qwen3 Embedding models are publicly available under the Apache 2.0 license.
arxiv情報
著者 | Yanzhao Zhang,Mingxin Li,Dingkun Long,Xin Zhang,Huan Lin,Baosong Yang,Pengjun Xie,An Yang,Dayiheng Liu,Junyang Lin,Fei Huang,Jingren Zhou |
発行日 | 2025-06-05 15:49:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google