BatchPrompt: Accomplish more with less

要約

多くのLLMは、命令ベースのプロンプトを使用して、ゼロショットまたは数ショットの推論を実行するように訓練されている。このようなLLMのためにプロンプトを作成するには、通常、ユーザがタスクの詳細な説明、文脈と完了の例、推論のための文脈の一例を提供する必要がある。この通常のプロンプトのベースラインを本稿ではSinglePromptと呼ぶ。しかし、推論のための各データポイントが必ずしも長くない自然言語処理タスクの場合、プロンプト内の指示や少数ショットの例のトークン数は、データポイントのトークン数よりもかなり大きくなる可能性があり、その結果、fine-tuned BERTのようなエンコーダベースのモデルと比較して、トークンリソースの利用率が低くなる。このコスト効率の問題は、推論速度と計算予算に影響し、LLMが提供する多くの利点を打ち消す。本論文では、複数のデータポイントを1つのプロンプトにバッチ処理することで、前述の問題を緩和することを目的とする。この戦略はデータポイントの密度を高め、トークンの利用率を向上させる。しかし、BatchPromptを素朴に適用することは、我々の実験で観察されたように、パフォーマンスが著しく低下するため、非常に困難である。また、同じデータポイントがプロンプト内の異なる位置に出現した場合、推論の結果が異なることに気づいた。高いトークンリソース使用率を維持しながら、品質の問題に対処するために、我々はBatchPromptのためのバッチ順列とアンサンブルを導入する。これは、より多くのトークンを使用する代償として、バッチ内の異なる位置に配置されたデータポイントから多数決によってラベリングの品質を回復する簡単な方法である。投票処理によるトークン使用量の増加に対抗するため、我々はさらに、LLMが自信を持って処理できるデータ点に対して投票処理を早期に終了させることができるSelf-reflection-guided EArly Stoppingを提案する。

要約(オリジナル)

Many LLMs are trained to perform zero-shot or few-shot inference using instruction-based prompts. Crafting prompts for these LLMs typically requires the user to provide a detailed task description, examples of context and completion, and single example of context for inference. This regular prompt baseline is referred to as SinglePrompt in this paper. However, for NLP tasks where each data point for inference is not necessarily lengthy, the token count for instructions and few-shot examples in the prompt may be considerably larger than that of the data point, resulting in lower token-resource utilization compared with encoder-based models like fine-tuned BERT. This cost-efficiency issue, affecting inference speed and compute budget, counteracts the many benefits LLMs have to offer. This paper aims to alleviate the preceding problem by batching multiple data points into a single prompt, a prompting strategy we refer to as BatchPrompt. This strategy increases the density of data points, which in turn leads to improved token utilization. Applying BatchPrompt naively, however, is very challenging due to significant performance degradation, as observed in our experiments. We also noticed varying inference outcomes for the same data point appearing in different positions within a prompt. To address the quality issue while remain high token-resource utilization, we introduce Batch Permutation and Ensembling for BatchPrompt, a simple way that recovers labeling quality through majority votes from data points placed in varying positions in a batch at the price of more token usage. To counterbalance the additional token usage caused by the voting process, we further propose Self-reflection-guided EArly Stopping, which can terminate the voting process early for data points the LLM confidently handles.

arxiv情報

著者 Jianzhe Lin,Maurice Diesendruck,Liang Du,Robin Abraham
発行日 2023-09-01 10:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク