Narrowing the Gap between Supervised and Unsupervised Sentence Representation Learning with Large Language Model

要約

文表現学習 (SRL) は自然言語処理 (NLP) の基本的なタスクであり、文埋め込みの対照学習 (CSE) はその優れたパフォーマンスにより主流の技術となっています。
CSE における興味深い現象は、教師ありメソッドと教師なしメソッドの間に大きなパフォーマンスのギャップがあり、唯一の違いはトレーニング データにあります。
以前の研究では、このパフォーマンスのギャップは 2 つの表現プロパティ (整列と均一性) の違いによるものであると考えられていました。
ただし、調整と均一性は結果を測定するだけであるため、「トレーニング データのどの側面がパフォーマンスのギャップに寄与しているか?」には答えることができません。
この論文では、これらの「何を」と「どのように」という質問に答えるために実証実験を行います。
まず、それぞれのトレーニング プロセス中の教師あり CSE と教師なし CSE の動作を徹底的に比較することで、「何を」という質問に答えます。
比較から、類似性パターンがパフォーマンス ギャップの主要な要因であることを特定し、類似性パターンの複雑さを測定するために相対適合難易度 (RFD) と呼ばれる指標を導入します。
次に、「何を」という質問から得られた洞察に基づいて、トレーニング データのパターンの複雑さを増やすことで「どのように」という質問に取り組みます。
これは、大規模言語モデル (LLM) のインコンテキスト学習 (ICL) 機能を活用して、複雑なパターンをシミュレートするデータを生成することによって実現されます。
LLM で生成されたデータの階層パターンを利用することで、教師あり CSE と教師なし CSE の間のギャップを効果的に狭めます。
コードと付録は https://github.com/BDBC-KG-NLP/NGCSE でリリースされています。

要約(オリジナル)

Sentence Representation Learning (SRL) is a fundamental task in Natural Language Processing (NLP), with the Contrastive Learning of Sentence Embeddings (CSE) being the mainstream technique due to its superior performance. An intriguing phenomenon in CSE is the significant performance gap between supervised and unsupervised methods, with their only difference lying in the training data. Previous works attribute this performance gap to differences in two representation properties (alignment and uniformity). However, since alignment and uniformity only measure the results, they fail to answer ‘What aspects of the training data contribute to the performance gap?’ and ‘How can the performance gap be narrowed?’, In this paper, we conduct empirical experiments to answer these ‘What’ and ‘How’ questions. We first answer the ‘What’ question by thoroughly comparing the behavior of supervised and unsupervised CSE during their respective training processes. From the comparison, we identify the similarity pattern as a key factor to the performance gap, and introduce a metric, called Relative Fitting Difficulty (RFD), to measure the complexity of the similarity pattern. Then, based on the insights gained from the ‘What’ question, we tackle the ‘How’ question by increasing the pattern complexity of the training data. We achieve this by leveraging the In-Context Learning (ICL) capability of the Large Language Model (LLM) to generate data that simulates complex patterns. By utilizing the hierarchical patterns in the LLM-generated data, we effectively narrow the gap between supervised and unsupervised CSE. We release our codes and appendix at https://github.com/BDBC-KG-NLP/NGCSE.

arxiv情報

著者 Mingxin Li,Richong Zhang,Zhijie Nie,Yongyi Mao
発行日 2023-12-19 12:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク