KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model

要約

大規模な言語モデルにおいて検索を考慮した生成が主流になるにつれ、埋め込みモデルの重要性が増している。一般的な埋め込みモデルの数が増えているにもかかわらず、先行研究はしばしば学習データの質の重要な役割を見落としている。本研究では、KaLM-Embeddingを紹介する。KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有の大量の学習データを活用する、一般的な多言語埋め込みモデルである。(1)LLMから抽出した多様な例を作成するためのペルソナベースの合成データ、(2)情報量の少ないサンプルを除去するためのランキング一貫性フィルタリング、(3)学習効果を向上させるための半均一タスクバッチサンプリング。従来のBERTライクなアーキテクチャから逸脱し、Qwen2-0.5Bを事前学習済みモデルとして採用することで、一般的な埋め込みタスクへの自己回帰型言語モデルの適応を容易にしている。多言語にわたるMTEBベンチマークの広範な評価により、我々のモデルが同程度のサイズの他のモデルを凌駕することが示され、<1Bのパラメータを持つ多言語埋め込みモデルの新たな標準となる。

要約(オリジナル)

As retrieval-augmented generation prevails in large language models, embedding models are becoming increasingly crucial. Despite the growing number of general embedding models, prior work often overlooks the critical role of training data quality. In this work, we introduce KaLM-Embedding, a general multilingual embedding model that leverages a large quantity of cleaner, more diverse, and domain-specific training data. Our model has been trained with key techniques proven to enhance performance: (1) persona-based synthetic data to create diversified examples distilled from LLMs, (2) ranking consistency filtering to remove less informative samples, and (3) semi-homogeneous task batch sampling to improve training efficacy. Departing from traditional BERT-like architectures, we adopt Qwen2-0.5B as the pre-trained model, facilitating the adaptation of auto-regressive language models for general embedding tasks. Extensive evaluations of the MTEB benchmark across multiple languages show that our model outperforms others of comparable size, setting a new standard for multilingual embedding models with <1B parameters.

arxiv情報

著者 Xinshuo Hu,Zifei Shan,Xinping Zhao,Zetian Sun,Zhenyu Liu,Dongfang Li,Shaolin Ye,Xinyuan Wei,Qian Chen,Baotian Hu,Min Zhang
発行日 2025-01-03 03:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク