ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent

要約

複雑な自然言語の質問に答えるには、多くの場合、多段階の推論と外部情報の統合が必要になります。
いくつかのシステムでは、知識検索と大規模言語モデル (LLM) を組み合わせて、このような質問に答えています。
ただし、これらのシステムにはさまざまな障害が発生しており、外部知識との相互作用は微分不可能であるため、そのような障害を修正するためにシステムをエンドツーエンドで直接トレーニングすることはできません。
これらの欠陥に対処するために、外部の知識を推論し、それに基づいて行動する能力を備えた ReAct スタイルの LLM エージェントを定義します。
私たちは、継続的な自己改善と自己蒸留のために AI フィードバックを備えた成長バッチ強化学習を採用し、以前の軌道で繰り返しトレーニングする ReST のような方法を通じてエージェントをさらに洗練させます。
プロンプト付きの大規模モデルから開始し、アルゴリズムをわずか 2 回繰り返すだけで、2 桁少ないパラメーターで、難しい構成質問応答ベンチマークで同等のパフォーマンスを達成する、微調整された小規模モデルを生成できます。

要約(オリジナル)

Answering complex natural language questions often necessitates multi-step reasoning and integrating external information. Several systems have combined knowledge retrieval with a large language model (LLM) to answer such questions. These systems, however, suffer from various failure cases, and we cannot directly train them end-to-end to fix such failures, as interaction with external knowledge is non-differentiable. To address these deficiencies, we define a ReAct-style LLM agent with the ability to reason and act upon external knowledge. We further refine the agent through a ReST-like method that iteratively trains on previous trajectories, employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation. Starting from a prompted large model and after just two iterations of the algorithm, we can produce a fine-tuned small model that achieves comparable performance on challenging compositional question-answering benchmarks with two orders of magnitude fewer parameters.

arxiv情報

著者 Renat Aksitov,Sobhan Miryoosefi,Zonglin Li,Daliang Li,Sheila Babayan,Kavya Kopparapu,Zachary Fisher,Ruiqi Guo,Sushant Prakash,Pranesh Srinivasan,Manzil Zaheer,Felix Yu,Sanjiv Kumar
発行日 2023-12-15 18:20:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク