Improving Sentence Embeddings with Automatic Generation of Training Data Using Few-shot Examples

要約

デコーダベースの大規模言語モデル(LLM)は、自然言語処理における多くのタスクで高い性能を示している。これは文埋め込み学習においても同様であり、デコーダベースのモデルであるPromptEOLは、意味的テキスト類似性(STS)タスクにおいて最高の性能を達成している。しかし、PromptEOLは微調整のために、手動で注釈を付けた自然言語推論(NLI)データセットを必要とする。我々は、LLMを用いてNLIデータセットを自動生成し、それをPromptEOLの微調整に用いることで、大規模な人手による注釈付きデータセットを用いずに文埋め込みを改善することを目指す。そのために、本研究では、文埋め込み学習に適したデータ生成方法を探索する。具体的には、少数ショット学習によるデータセットの自動生成に着目し、少数ショット例を活用するための適切な手法を探る。STSタスクの実験結果から、人手による大規模な注釈付きデータセットがない設定において、我々のアプローチが既存のモデルを上回ることが実証された。

要約(オリジナル)

Decoder-based large language models (LLMs) have shown high performance on many tasks in natural language processing. This is also true for sentence embedding learning, where a decoder-based model, PromptEOL, has achieved the best performance on semantic textual similarity (STS) tasks. However, PromptEOL requires a manually annotated natural language inference (NLI) dataset for fine-tuning. We aim to improve sentence embeddings without using large manually annotated datasets by automatically generating an NLI dataset with an LLM and using it for fine-tuning of PromptEOL. To achieve this, we explore methods of data generation suitable for sentence embedding learning in this study. Specifically, we will focus on automatic dataset generation through few-shot learning and explore the appropriate methods to leverage few-shot examples. Experimental results on the STS tasks demonstrate that our approach outperforms existing models in settings without large manually annotated datasets.

arxiv情報

著者 Soma Sato,Hayato Tsukagoshi,Ryohei Sasano,Koichi Takeda
発行日 2024-08-02 08:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク