要約
BertやRobertaなどのエンコーダーデコーダーの大手言語モデル(LLMS)では、注釈タスク内のすべてのカテゴリをトレーニングデータに十分に表現して、最適なパフォーマンスを提供する必要があります。
ただし、高品質のトレーニングセットを構築する際には、タスク内のすべてのカテゴリに十分な例を見つけることは困難なことがよくあります。
この記事では、この問題について説明し、解決策、合成代入アプローチを提案します。
生成LLM(GPT-4O)を活用して、このアプローチは、慎重なプロンプトとサンプルからの置換とランダムに描かれた5つの元の例に基づいて合成テキストを生成します。
このアプローチにより、新しい合成テキストが元のテキストとは十分に異なるため、過剰に適合しますが、サンプル外のパフォーマンスを最大化するために、例の根本的な実質的な意味を保持します。
75のオリジナルの例を使用すると、合成代入のパフォーマンスは元のテキストの完全なサンプルと同等であり、50個の元のサンプルで過剰フィッティングが低く、予測可能で、修正可能です。
合成代入アプローチは、研究における生成LLMの新しい役割を提供し、応用研究者が最良のパフォーマンスのためにデータセットのバランスをとることができます。
要約(オリジナル)
Encoder-decoder Large Language Models (LLMs), such as BERT and RoBERTa, require that all categories in an annotation task be sufficiently represented in the training data for optimal performance. However, it is often difficult to find sufficient examples for all categories in a task when building a high-quality training set. In this article, I describe this problem and propose a solution, the synthetic imputation approach. Leveraging a generative LLM (GPT-4o), this approach generates synthetic texts based on careful prompting and five original examples drawn randomly with replacement from the sample. This approach ensures that new synthetic texts are sufficiently different from the original texts to reduce overfitting, but retain the underlying substantive meaning of the examples to maximize out-of-sample performance. With 75 original examples or more, synthetic imputation’s performance is on par with a full sample of original texts, and overfitting remains low, predictable and correctable with 50 original samples. The synthetic imputation approach provides a novel role for generative LLMs in research and allows applied researchers to balance their datasets for best performance.
arxiv情報
著者 | Joan C. Timoneda |
発行日 | 2025-04-21 15:07:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google