要約
大規模な事前トレーニング済み言語モデルの最近の開発により、さまざまな下流タスクで前例のないパフォーマンスが可能になりました。
これらのモデルで最高のパフォーマンスを達成するには、多くの場合、モデルが 1 つ以上の例を与えられて (おそらく新しい) タスクを実行する、コンテキスト内学習を活用します。
ただし、最近の研究では、例の選択がタスクのパフォーマンスに大きな影響を与える可能性があり、最適な例のセットを見つけるのは簡単ではないことが示されています。
コンテキスト内でサンプルを選択するための既存の方法は多数ありますが、それらは通常、サンプル間の依存関係やサンプルがモデルに提供される順序を無視して、サンプルを独立してスコアリングします。
この研究では、インコンテキスト学習のためにサンプルをモデル化し、最適に選択するための学習可能な方法であるインコンテキスト学習のための検索 (RetICL) を提案します。
私たちは、逐次的なサンプル選択の問題をマルコフ決定プロセスとして組み立て、強化学習を使用してサンプル取得者を訓練します。
私たちは数学の文章問題の解決と科学的な質問に答えるタスクで RetICL を評価し、それがヒューリスティックで学習可能なベースラインを一貫して上回るか、一致していることを示しました。
また、ケーススタディを使用して、RetICL が問題解決戦略の表現を暗黙的に学習することを示します。
要約(オリジナル)
Recent developments in large pre-trained language models have enabled unprecedented performance on a variety of downstream tasks. Achieving best performance with these models often leverages in-context learning, where a model performs a (possibly new) task given one or more examples. However, recent work has shown that the choice of examples can have a large impact on task performance and that finding an optimal set of examples is non-trivial. While there are many existing methods for selecting in-context examples, they generally score examples independently, ignoring the dependency between them and the order in which they are provided to the model. In this work, we propose Retrieval for In-Context Learning (RetICL), a learnable method for modeling and optimally selecting examples sequentially for in-context learning. We frame the problem of sequential example selection as a Markov decision process and train an example retriever using reinforcement learning. We evaluate RetICL on math word problem solving and scientific question answering tasks and show that it consistently outperforms or matches heuristic and learnable baselines. We also use case studies to show that RetICL implicitly learns representations of problem solving strategies.
arxiv情報
著者 | Alexander Scarlatos,Andrew Lan |
発行日 | 2024-04-16 17:25:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google