要約
複雑な現実世界の問題に対処するには、詳細な情報探索とマルチステップの推論が必要です。
深い研究に例示されているエージェントシステムの最近の進歩は、自律的なマルチステップ研究の可能性を強調しています。
この作業では、データ中心およびトレーニング段階の観点からエンドツーエンドのエージェント情報探索エージェントを構築するための凝集パラダイムを提示します。
私たちのアプローチは、4つの重要な段階で構成されています。(1)閲覧データ構築、(2)軌跡のサンプリング、(3)効果的なコールドスタートのための監視微調整、(4)一般化の強化のための強化学習。
このフレームワークは、React、WebDancerに基づいたWebエージェントにインスタンス化します。
ベンチマークを求めている挑戦的な情報を求めている経験的評価であるGaiaとWebWalkerqaは、WebDancerの強力なパフォーマンスを実証し、かなりの結果を達成し、トレーニングパラダイムの有効性を強調しています。
エージェントトレーニングのさらなる分析は、より有能なエージェントモデルを開発するための貴重な洞察と実用的で体系的な経路を提供します。
コードとデモはhttps://github.com/alibaba-nlp/webagentでリリースされます。
要約(オリジナル)
Addressing intricate real-world problems necessitates in-depth information seeking and multi-step reasoning. Recent progress in agentic systems, exemplified by Deep Research, underscores the potential for autonomous multi-step research. In this work, we present a cohesive paradigm for building end-to-end agentic information seeking agents from a data-centric and training-stage perspective. Our approach consists of four key stages: (1) browsing data construction, (2) trajectories sampling, (3) supervised fine-tuning for effective cold start, and (4) reinforcement learning for enhanced generalisation. We instantiate this framework in a web agent based on the ReAct, WebDancer. Empirical evaluations on the challenging information seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of WebDancer, achieving considerable results and highlighting the efficacy of our training paradigm. Further analysis of agent training provides valuable insights and actionable, systematic pathways for developing more capable agentic models. The codes and demo will be released in https://github.com/Alibaba-NLP/WebAgent.
arxiv情報
著者 | Jialong Wu,Baixuan Li,Runnan Fang,Wenbiao Yin,Liwen Zhang,Zhengwei Tao,Dingchu Zhang,Zekun Xi,Yong Jiang,Pengjun Xie,Fei Huang,Jingren Zhou |
発行日 | 2025-05-28 17:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google