RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning


これらのモデルで最高のパフォーマンスを達成するには、多くの場合、モデルが 1 つ以上の例を与えられて (おそらく新しい) タスクを実行する、コンテキスト内学習を活用します。
この研究では、インコンテキスト学習のためにサンプルをモデル化し、最適に選択するための学習可能な方法であるインコンテキスト学習のための検索 (RetICL) を提案します。
私たちは数学の文章問題の解決と科学的な質問に答えるタスクで RetICL を評価し、それがヒューリスティックで学習可能なベースラインを一貫して上回るか、一致していることを示しました。
また、ケーススタディを使用して、RetICL が問題解決戦略の表現を暗黙的に学習することを示します。


Recent developments in large pre-trained language models have enabled unprecedented performance on a variety of downstream tasks. Achieving best performance with these models often leverages in-context learning, where a model performs a (possibly new) task given one or more examples. However, recent work has shown that the choice of examples can have a large impact on task performance and that finding an optimal set of examples is non-trivial. While there are many existing methods for selecting in-context examples, they generally score examples independently, ignoring the dependency between them and the order in which they are provided to the model. In this work, we propose Retrieval for In-Context Learning (RetICL), a learnable method for modeling and optimally selecting examples sequentially for in-context learning. We frame the problem of sequential example selection as a Markov decision process and train an example retriever using reinforcement learning. We evaluate RetICL on math word problem solving and scientific question answering tasks and show that it consistently outperforms or matches heuristic and learnable baselines. We also use case studies to show that RetICL implicitly learns representations of problem solving strategies.


著者 Alexander Scarlatos,Andrew Lan
発行日 2024-04-16 17:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク