ScatterShot: Interactive In-context Example Curation for Text Transformation

要約

GPT-3 のような LLM のインコンテキスト学習機能により、アノテーターは少数の例を使用して特定のタスクに合わせて LLM をカスタマイズできます。
ただし、ユーザーは例を作成するときに最も明白なパターンのみを含める傾向があり、その結果、目に見えないケースでは不十分なコンテキスト内関数が指定不足になります。
さらに、既知のパターンであっても、いつ「十分な」例が含まれているかを知ることは困難です。
この作業では、コンテキスト内学習用の高品質のデモ セットを構築するためのインタラクティブなシステムである ScatterShot を紹介します。
ScatterShot は、ラベル付けされていないデータをタスク固有のパターンに繰り返しスライスし、未調査のスライスまたはまだ飽和していないスライスから有益な入力をアクティブな学習方法でサンプリングし、LLM と現在のサンプル セットを使用して、ユーザーがより効率的にラベル付けできるようにします。
2 つのテキスト摂動シナリオに関するシミュレーション研究では、ScatterShot サンプリングは、結果の少数ショット関数をランダム サンプリングよりも 4 ~ 5 パーセンテージ ポイント改善し、より多くの例が追加されるにつれて分散が小さくなります。
ユーザー調査では、ScatterShot は、ユーザーが入力スペースのさまざまなパターンをカバーし、コンテキスト内の例をより効率的にラベル付けするのに非常に役立ち、コンテキスト内の学習が向上し、ユーザーの労力が軽減されます。

要約(オリジナル)

The in-context learning capabilities of LLMs like GPT-3 allow annotators to customize an LLM to their specific tasks with a small number of examples. However, users tend to include only the most obvious patterns when crafting examples, resulting in underspecified in-context functions that fall short on unseen cases. Further, it is hard to know when ‘enough’ examples have been included even for known patterns. In this work, we present ScatterShot, an interactive system for building high-quality demonstration sets for in-context learning. ScatterShot iteratively slices unlabeled data into task-specific patterns, samples informative inputs from underexplored or not-yet-saturated slices in an active learning manner, and helps users label more efficiently with the help of an LLM and the current example set. In simulation studies on two text perturbation scenarios, ScatterShot sampling improves the resulting few-shot functions by 4-5 percentage points over random sampling, with less variance as more examples are added. In a user study, ScatterShot greatly helps users in covering different patterns in the input space and labeling in-context examples more efficiently, resulting in better in-context learning and less user effort.

arxiv情報

著者 Tongshuang Wu,Hua Shen,Daniel S. Weld,Jeffrey Heer,Marco Tulio Ribeiro
発行日 2023-02-14 21:13:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク