Efficient Prompting via Dynamic In-Context Learning

要約

AI アプリケーションを構築する主な方法は、トレーニング専門家モデルからプロンプトジェネラリストモデルに移行することです。
コンテキスト内学習と呼ばれることが多いジェネラリスト モデルのプロンプトの一般的な方法は、モデルがタスクをよりよく理解できるようにプロンプ​​トにいくつかの例 (デモンストレーション) を追加することです。
コンテキスト内学習は効果的ではありますが、入力プロンプトが非常に長くなり、コンテキスト ウィンドウ内の貴重なスペースが消費され、計算コストが増大するため、非効率になる可能性があります。
この論文では、入力の複雑さと計算量に応じてコンテキスト内の例を動的に割り当てるブラックボックスジェネラリストモデルを使用した効率的なプロンプトのレシピである DynaICL を提案します。
これを達成するために、ジェネラリスト モデルに適したコンテキスト内のサンプルの数を予測するメタ コントローラーをトレーニングし、特定の入力に対するパフォーマンスと効率のトレードオフに基づいて適切な予測を行います。
次に、メタ コントローラーからの予測と指定された計算バジェットに従って、入力に対するデモンストレーションの数を動的に割り当てます。
実験結果は、動的なサンプルの割り当てが、計算リソースまたは必要なパフォーマンスが制限されている 2 つの実際の設定において、より優れたパフォーマンスと効率のトレードオフを達成するのに役立つことを示しています。
具体的には、DynaICL は、各入力に同数のコンテキスト内サンプルを割り当てる一般的な手法と比較して、トークン バジェットを最大 46% 節約します。
また、特定のバックボーン モデルとタスクでトレーニングされたメタ コントローラーが、目に見えないモデルとタスクに正常に一般化できることもわかりました。

要約(オリジナル)

The primary way of building AI applications is shifting from training specialist models to prompting generalist models. A common practice for prompting generalist models, often referred to as in-context learning, is to append a few examples (demonstrations) to the prompt to help the model better understand the task. While effective, in-context learning can be inefficient because it makes the input prompt much longer, consuming valuable space in the context window and leading to larger computational costs. In this paper, we propose DynaICL, a recipe for efficient prompting with black-box generalist models that dynamically allocate in-context examples according to the input complexity and the computational budget. To achieve this, we train a meta controller that predicts the number of in-context examples suitable for the generalist model to make a good prediction based on the performance-efficiency trade-off for a specific input. We then dynamically allocate the number of demonstrations for an input according to predictions from the meta controller and the given computation budget. Experimental results show that dynamic example allocation helps achieve a better performance-efficiency trade-off in two practical settings where computational resources or the required performance is constrained. Specifically, DynaICL saves up to 46% token budget compared to the common practice that allocates the same number of in-context examples to each input. We also find that a meta controller trained on a certain backbone model and tasks can successfully generalize to unseen models and tasks.

arxiv情報

著者 Wangchunshu Zhou,Yuchen Eleanor Jiang,Ryan Cotterell,Mrinmaya Sachan
発行日 2023-05-18 17:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク