Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning

要約

最近、大規模言語モデル (LLM) が画期的なテクノロジーとして登場し、その比類のないテキスト生成機能により、基本的な文表現学習タスクへの応用への関心が高まっています。
既存の方法では、SimCSE などの対照学習ベースの文埋め込みモデルをトレーニングするための合成データを生成するデータ アノテーターとして LLM を利用することが検討されてきました。
ただし、対照学習モデルは文ペアの品質に敏感であるため、これらの方法の有効性は LLM から生成されるコンテンツに大きく影響され、文表現学習のコンテキストでより洗練された生成の必要性が強調されます。
この前提に基づいて、我々は、ベースセンテンス埋め込みモデルをトレーニングするためのコーパスを生成するよう LLM に促すプロセスを 3 つの段階 (つまり、センテンス生成、センテンスペア構築、
バッチ トレーニング) を実行し、これら 3 つの異なる段階で生成されたコンテンツを洗練し、基本の対照学習モデルのトレーニングに高品質の文のペアのみが利用されるようにします。
私たちの広範な実験により、MultiCSR を使用すると、それほど高度ではない LLM が ChatGPT のパフォーマンスを上回ることができる一方、それを ChatGPT に適用すると、より優れた最先端の結果が得られることが明らかになりました。
包括的な分析により、さまざまなアプリケーション シナリオにおけるフレームワークの可能性と、LLM を使用したより優れた文表現学習の実現がさらに強調されます。

要約(オリジナル)

Recently, large language models (LLMs) have emerged as a groundbreaking technology and their unparalleled text generation capabilities have sparked interest in their application to the fundamental sentence representation learning task. Existing methods have explored utilizing LLMs as data annotators to generate synthesized data for training contrastive learning based sentence embedding models such as SimCSE. However, since contrastive learning models are sensitive to the quality of sentence pairs, the effectiveness of these methods is largely influenced by the content generated from LLMs, highlighting the need for more refined generation in the context of sentence representation learning. Building upon this premise, we propose MultiCSR, a multi-level contrastive sentence representation learning framework that decomposes the process of prompting LLMs to generate a corpus for training base sentence embedding models into three stages (i.e., sentence generation, sentence pair construction, in-batch training) and refines the generated content at these three distinct stages, ensuring only high-quality sentence pairs are utilized to train a base contrastive learning model. Our extensive experiments reveal that MultiCSR enables a less advanced LLM to surpass the performance of ChatGPT, while applying it to ChatGPT achieves better state-of-the-art results. Comprehensive analyses further underscore the potential of our framework in various application scenarios and achieving better sentence representation learning with LLMs.

arxiv情報

著者 Huiming Wang,Zhaodonghui Li,Liying Cheng,Soh De Wen,Lidong Bing
発行日 2024-05-17 06:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク