要約
デコーダベースの大規模言語モデル(LLM)は、自然言語処理における多くのタスクで高い性能を示している。これは文埋め込み学習においても同様であり、デコーダベースのモデルであるPromptEOLは、意味的テキスト類似性(STS)タスクにおいて最高の性能を達成している。しかし、PromptEOLは微調整のために、手動で注釈を付けた自然言語推論(NLI)データセットを必要とする。我々は、LLMを用いてNLIデータセットを自動生成し、それをPromptEOLの微調整に用いることで、大規模な人手による注釈付きデータセットを用いずに文埋め込みを改善することを目指す。そのために、本研究では、文埋め込み学習に適したデータ生成方法を探索する。具体的には、少数ショット学習によるデータセットの自動生成に着目し、少数ショット例を活用するための適切な手法を探る。STSタスクの実験結果から、人手による大規模な注釈付きデータセットがない設定において、我々のアプローチが既存のモデルを上回ることが実証された。
要約(オリジナル)
Decoder-based large language models (LLMs) have shown high performance on many tasks in natural language processing. This is also true for sentence embedding learning, where a decoder-based model, PromptEOL, has achieved the best performance on semantic textual similarity (STS) tasks. However, PromptEOL requires a manually annotated natural language inference (NLI) dataset for fine-tuning. We aim to improve sentence embeddings without using large manually annotated datasets by automatically generating an NLI dataset with an LLM and using it for fine-tuning of PromptEOL. To achieve this, we explore methods of data generation suitable for sentence embedding learning in this study. Specifically, we will focus on automatic dataset generation through few-shot learning and explore the appropriate methods to leverage few-shot examples. Experimental results on the STS tasks demonstrate that our approach outperforms existing models in settings without large manually annotated datasets.
arxiv情報
著者 | Soma Sato,Hayato Tsukagoshi,Ryohei Sasano,Koichi Takeda |
発行日 | 2024-08-02 08:49:14+00:00 |
arxivサイト | arxiv_id(pdf) |