要約
言語エージェントは、複雑な対話タスクに対する有望なソリューションとなっている。言語エージェントの成功の鍵となる要素の1つは、エージェントワークフローの軌跡上の報酬モデルであり、これは訓練や推論中に貴重なガイダンスを提供する。しかしながら、中間的な相互作用のアノテーションがないため、ほとんどの既存の研究は、軌道全体にわたってポリシーを最適化するために結果報酬モデルを使用する。これは、最適でないポリシーを導き、全体的なパフォーマンスを妨げる可能性がある。この問題に対処するため、我々はQLASS (Q-guided Language Agent Stepwise Search)を提案し、オープンな言語エージェントに対して段階的にQ値を推定することで注釈を自動生成する。推論ツリーを導入し、プロセス報酬モデリングを行うことで、QLASSは各ステップに対して効果的な中間ガイダンスを提供する。この段階的なガイダンスにより、言語エージェントが長期的な価値にうまく適応できるようにするためのQガイド付き生成戦略を提案し、複雑な対話型エージェントタスクのモデル推論において大幅な性能向上をもたらす。特に、注釈付きデータがほぼ半分になった場合でも、QLASSは強力な性能を維持し、限られた監視を処理する際の効率性を実証している。また、QLASSが定性分析を通じてより効果的な意思決定につながることを実証的に示す。コードとデータを公開します。
要約(オリジナル)
Language agents have become a promising solution to complex interactive tasks. One of the key ingredients to the success of language agents is the reward model on the trajectory of the agentic workflow, which provides valuable guidance during training or inference. However, due to the lack of annotations of intermediate interactions, most existing works use an outcome reward model to optimize policies across entire trajectories. This may lead to sub-optimal policies and hinder the overall performance. To address this, we propose QLASS (Q-guided Language Agent Stepwise Search), to automatically generate annotations by estimating Q-values in a stepwise manner for open language agents. By introducing a reasoning tree and performing process reward modeling, QLASS provides effective intermediate guidance for each step. With the stepwise guidance, we propose a Q-guided generation strategy to enable language agents to better adapt to long-term value, resulting in significant performance improvement during model inference on complex interactive agent tasks. Notably, even with almost half the annotated data, QLASS retains strong performance, demonstrating its efficiency in handling limited supervision. We also empirically demonstrate that QLASS can lead to more effective decision making through qualitative analysis. We will release our code and data.
arxiv情報
著者 | Zongyu Lin,Yao Tang,Xingcheng Yao,Da Yin,Ziniu Hu,Yizhou Sun,Kai-Wei Chang |
発行日 | 2025-02-04 18:58:31+00:00 |
arxivサイト | arxiv_id(pdf) |