要約
通常、大規模な注釈付きトレーニングセットへのアクセスを想定するコンテキスト内学習(ICL)はほとんどありません。
ただし、ドメイン適応などの多くの現実世界のシナリオでは、ダウンストリームパフォーマンスを最大化することを目的として、少数のサンプルに注釈を付ける予算は限られています。
事前に定義された予算内で注釈を付けるためのサンプルを選択するためのさまざまな方法を研究し、注釈に費用がかかり、ICLセットアップでは比較的研究されていないトークン分類タスクに焦点を当てています。
さまざまなタスク、モデル、およびデータセットにわたって、注釈のランダムサンプル選択を含む、ほとんどの方法が同様の結果をもたらし、他のタスクを大幅に上回る方法はないことがわかります。
さらに、比較的小さな注釈付きサンプルプールが、トレーニングセット全体を使用することに匹敵するパフォーマンスを実現できることを実証します。
将来の仕事が、注釈の予算を考慮に入れる現実的なパラダイムを採用することを願っています。
要約(オリジナル)
Few shot in-context learning (ICL) typically assumes access to large annotated training sets. However, in many real world scenarios, such as domain adaptation, there is only a limited budget to annotate a small number of samples, with the goal of maximizing downstream performance. We study various methods for selecting samples to annotate within a predefined budget, focusing on token classification tasks, which are expensive to annotate and are relatively less studied in ICL setups. Across various tasks, models, and datasets, we observe that no method significantly outperforms the others, with most yielding similar results, including random sample selection for annotation. Moreover, we demonstrate that a relatively small annotated sample pool can achieve performance comparable to using the entire training set. We hope that future work adopts our realistic paradigm which takes annotation budget into account.
arxiv情報
著者 | Uri Berger,Tal Baumel,Gabriel Stanovsky |
発行日 | 2025-01-28 07:14:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google