要約
インコンテキスト学習は、言語モデルがいくつかの例を観察し、テスト入力の予測を直接出力する新しい学習パラダイムです。
以前の研究では、インコンテキスト学習は提供された例に敏感であり、ランダムにサンプリングされた例は非常に不安定なパフォーマンスを示していることが示されています。
この論文では、コンテキスト内学習の「サポート例」を見つけることを提案します。トレーニング データセットが与えられた場合、タスクのコンテキスト内学習にとって有益であり、優れた結果につながるいくつかの例の順列を 1 つ選択する必要があります。
パフォーマンス。
従来の勾配ベースの学習 (微調整など) では、データセット全体から「コアセット」を見つけるための方法が数多くありますが、それらは準最適であり、この問題には適していません。
勾配やパラメーターの更新を伴わない言語モデルの推論。
さらに、コンテキスト内の例間の強い依存関係により、この問題は NP 困難な組み合わせ最適化問題になり、すべての可能な順列を列挙することは実行不可能です。
したがって、この課題に取り組むための 2 段階の方法を提案します。
最初に、言語モデルのフィードバックに基づいて有益な例を選択するための新しいメトリックを提案し、プログレッシブ フィルタリング戦略を使用します。
そして、選択された例を反復的に改良および評価するために、ダイバーシティガイドビーム検索法を提案します。
実験結果は、私たちの方法が幅広いベースラインよりも大幅に優れていることを示しており、さらなる分析により、私たちの方法の有効性が示され、サポート例とコンテキスト内学習の特性が明らかになりました。
要約(オリジナル)
In-context learning is a new learning paradigm where a language model observes a few examples and then straightly outputs the test input’s prediction. Previous works have shown that in-context learning is sensitive to the provided examples and randomly sampled examples show significantly unstable performance. In this paper, we propose to find “supporting examples” for in-context learning: Given the training dataset, we need to select one permutation of a few examples, which are informative for the task’s in-context learning and lead to superior performance. Although in traditional gradient-based learning, e.g., fine-tuning, there are numerous methods to find a “coreset” from the entire dataset, they are sub-optimal and not suitable for this problem since in-context learning occurs in the language model’s inference without gradients or parameter updates. Additionally, the strong dependence among in-context examples makes this problem an NP-hard combinatorial optimization problem and enumerating all possible permutations is infeasible. Hence we propose a two-stage method to tackle this challenge. First we propose a novel metric to select informative examples based on the language model’s feedback, with a progressive filtering strategy. And then we propose a diversity-guided beam search method to refine and evaluate the selected examples, iteratively. The experimental results show our method significantly outperforms a wide range of baselines, and further analyses show the effectiveness of our method and shed light on the properties of supporting examples and in-context learning.
arxiv情報
著者 | Xiaonan Li,Xipeng Qiu |
発行日 | 2023-02-27 06:32:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google