Linq-Embed-Mistral Technical Report

要約

このレポートでは、高度なデータ絞り込み技術を使用したテキスト検索パフォーマンスの強化について調査します。
E5-mistral モデルと Mistral-7B-v0.1 モデルに基づいて、Linq-Embed-Mistral\footnote{\url{https://huggingface.co/Linq-AI-Research/Linq-Embed-Mistral}} を開発しています。
、各タスクに合わせて高度に調整された高度なデータ クラフト、データ フィルタリング、ネガティブ マイニング手法に焦点を当て、既存のベンチマーク データセットと大規模な言語モデルを介して生成された高度に調整された合成データセットの両方に適用されます。
(LLM)。
Linq-Embed-Mistral は MTEB ベンチマークで優れており (2024 年 5 月 29 日現在)、56 のデータセット全体で平均スコア 68.2 を達成し、MTEB リーダーボードの検索タスクの全モデル中 60.2 のパフォーマンス スコアで 1 位にランクされています。
このパフォーマンスは、検索の精度と信頼性を向上させる優れた機能を示しています。
私たちの貢献には、ベンチマークおよび合成データセットでのモデルのパフォーマンスを大幅に向上させる高度なデータ改良手法、モデルの一般化と安定性を高めるための同種タスクの順序付けと混合タスクの微調整の手法、4 ビット精度と軽量取得を使用した合理化された評価プロセスが含まれます。
評価セットを使用すると、精度を犠牲にすることなく検証が迅速化されます。

要約(オリジナル)

This report explores the enhancement of text retrieval performance using advanced data refinement techniques. We develop Linq-Embed-Mistral\footnote{\url{https://huggingface.co/Linq-AI-Research/Linq-Embed-Mistral}} by building on the E5-mistral and Mistral-7B-v0.1 models, focusing on sophisticated data crafting, data filtering, and negative mining methods, which are highly tailored to each task, applied to both existing benchmark dataset and highly tailored synthetic dataset generated via large language models (LLMs). Linq-Embed-Mistral excels in the MTEB benchmarks (as of May 29, 2024), achieving an average score of 68.2 across 56 datasets, and ranks 1st among all models for retrieval tasks on the MTEB leaderboard with a performance score of 60.2. This performance underscores its superior capability in enhancing search precision and reliability. Our contributions include advanced data refinement methods that significantly improve model performance on benchmark and synthetic datasets, techniques for homogeneous task ordering and mixed task fine-tuning to enhance model generalization and stability, and a streamlined evaluation process using 4-bit precision and a light retrieval evaluation set, which accelerates validation without sacrificing accuracy.

arxiv情報

著者 Chanyeol Choi,Junseong Kim,Seolhwa Lee,Jihoon Kwon,Sangmo Gu,Yejin Kim,Minkyung Cho,Jy-yong Sohn
発行日 2024-12-04 11:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク