Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models

要約

文の埋め込みは、多くのNLPタスクに不可欠であり、NLIのような注釈付きデータセットを使用して強力なパフォーマンスを実現する対照的な学習方法があります。
しかし、マニュアルラベルに依存すると、スケーラビリティが制限されます。
最近の研究では、大規模な言語モデル(LLMS)を活用して文のペアを生成し、注釈の依存を減らします。
ただし、ランキング情報を見落としています。
この課題に取り組むために、潜在空間でLLMの生成方向を制御する方法を提案します。
制約のない世代とは異なり、制御されたアプローチは意味のある意味的な発散を保証します。
次に、ランキング情報とセマンティック情報を統合することにより、存在する文の埋め込みモデルを改良します。
複数のベンチマークでの実験は、ランキング文の統合にわずかなコストで新しいSOTAパフォーマンスを達成することを示しています。

要約(オリジナル)

Sentence embedding is essential for many NLP tasks, with contrastive learning methods achieving strong performance using annotated datasets like NLI. Yet, the reliance on manual labels limits scalability. Recent studies leverage large language models (LLMs) to generate sentence pairs, reducing annotation dependency. However, they overlook ranking information crucial for fine-grained semantic distinctions. To tackle this challenge, we propose a method for controlling the generation direction of LLMs in the latent space. Unlike unconstrained generation, the controlled approach ensures meaningful semantic divergence. Then, we refine exist sentence embedding model by integrating ranking information and semantic information. Experiments on multiple benchmarks demonstrate that our method achieves new SOTA performance with a modest cost in ranking sentence synthesis.

arxiv情報

著者 Liyang He,Chenglong Liu,Rui Li,Zhenya Huang,Shulan Ruan,Jun Zhou,Enhong Chen
発行日 2025-06-04 16:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク