要約
生成大規模言語モデル (LLM) は、テキスト サンプルが言い換え (または新たに生成) され、分類器の微調整に使用されるデータ拡張タスクにますます使用されています。
拡張に関する既存の研究では、サンプルがプロンプトの一部として LLM に与えられる少数ショット シナリオが活用されており、より良い拡張につながります。
しかし、サンプルはほとんどがランダムに選択されており、他の(より「情報に基づいた」)サンプル選択戦略の影響に関する包括的な概要が不足しています。
この研究では、少数ショット学習文献に存在するサンプル選択戦略を比較し、LLM ベースのテキスト拡張におけるそれらの効果を調査します。
これを、分布内および分布外の分類器のパフォーマンスに基づいて評価します。
結果は、一部の「情報に基づいた」選択戦略は、特に分布外データの場合にモデルのパフォーマンスを向上させるものの、それはめったに起こらず、パフォーマンスの向上もわずかであることを示しています。
さらなる進歩が見られない限り、ランダムなサンプル選択のデフォルトがオーグメンテーションの実践者にとって良い選択肢のままです。
要約(オリジナル)
The generative large language models (LLMs) are increasingly used for data augmentation tasks, where text samples are paraphrased (or generated anew) and then used for classifier fine-tuning. Existing works on augmentation leverage the few-shot scenarios, where samples are given to LLMs as part of prompts, leading to better augmentations. Yet, the samples are mostly selected randomly and a comprehensive overview of the effects of other (more “informed”) sample selection strategies is lacking. In this work, we compare sample selection strategies existing in few-shot learning literature and investigate their effects in LLM-based textual augmentation. We evaluate this on in-distribution and out-of-distribution classifier performance. Results indicate, that while some “informed” selection strategies increase the performance of models, especially for out-of-distribution data, it happens only seldom and with marginal performance increases. Unless further advances are made, a default of random sample selection remains a good option for augmentation practitioners.
arxiv情報
著者 | Jan Cegin,Branislav Pecher,Jakub Simko,Ivan Srba,Maria Bielikova,Peter Brusilovsky |
発行日 | 2024-10-14 17:30:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google