KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model

要約

大規模な言語モデルでは検索拡張生成が普及するにつれて、埋め込みモデルの重要性がますます高まっています。
一般的な埋め込みモデルの数が増加しているにもかかわらず、これまでの研究では、トレーニング データの品質という重要な役割が見落とされていることがよくありました。
この研究では、大量のよりクリーンでより多様な、ドメイン固有のトレーニング データを活用する一般的な多言語埋め込みモデルである KaLM-Embedding を紹介します。
私たちのモデルは、パフォーマンスを向上させることが証明されている主要な技術を使用してトレーニングされています。(1) LLM から抽出された多様なサンプルを作成するためのペルソナベースの合成データ、(2) 情報量の少ないサンプルを削除するためのランキング一貫性フィルタリング、および (3) 半同種のタスク バッチ
トレーニング効果を向上させるためのサンプリング。
従来の BERT のようなアーキテクチャから脱却し、事前トレーニング済みモデルとして Qwen2-0.5B を採用し、一般的な埋め込みタスクへの自動回帰言語モデルの適応を容易にします。
複数の言語にわたる MTEB ベンチマークの広範な評価により、私たちのモデルが同等のサイズの他のモデルよりも優れたパフォーマンスを示し、パラメータが 1B 未満の多言語埋め込みモデルの新しい標準を確立したことが示されています。

要約(オリジナル)

As retrieval-augmented generation prevails in large language models, embedding models are becoming increasingly crucial. Despite the growing number of general embedding models, prior work often overlooks the critical role of training data quality. In this work, we introduce KaLM-Embedding, a general multilingual embedding model that leverages a large quantity of cleaner, more diverse, and domain-specific training data. Our model has been trained with key techniques proven to enhance performance: (1) persona-based synthetic data to create diversified examples distilled from LLMs, (2) ranking consistency filtering to remove less informative samples, and (3) semi-homogeneous task batch sampling to improve training efficacy. Departing from traditional BERT-like architectures, we adopt Qwen2-0.5B as the pre-trained model, facilitating the adaptation of auto-regressive language models for general embedding tasks. Extensive evaluations of the MTEB benchmark across multiple languages show that our model outperforms others of comparable size, setting a new standard for multilingual embedding models with <1B parameters.

arxiv情報

著者 Xinshuo Hu,Zifei Shan,Xinping Zhao,Zetian Sun,Zhenyu Liu,Dongfang Li,Shaolin Ye,Xinyuan Wei,Qian Chen,Baotian Hu,Haofen Wang,Jun Yu,Min Zhang
発行日 2025-01-15 03:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク