WebThinker: Empowering Large Reasoning Models with Deep Research Capability

要約

Openai-O1やDeepSeek-R1などの大きな推論モデル(LRMS)は、印象的な長期推論能力を示しています。
ただし、静的な内部知識への依存は、複雑で知識集約的なタスクでのパフォーマンスを制限し、多様なWeb情報の統合を必要とする包括的な研究レポートを作成する能力を妨げます。
これに対処するために、\ textbf {webthinker}を提案します。これは、推論プロセス中にWebを自律的に検索し、Webページをナビゲートし、研究レポートをドラフトするためのLRMSを強化する深い研究エージェントです。
WebThinkerは、\ textBF {Deep Web Explorer}モジュールを統合し、LRMSが知識のギャップに遭遇したときにWebから動的に検索、ナビゲート、抽出できるようにします。
また、\ textBf {自動的な思考とドラフト戦略}を採用しており、モデルが推論、情報収集、および執筆をリアルタイムでシームレスにインターリーブすることを可能にします。
研究ツールの利用をさらに強化するために、Iterative Online Direct Preference Optimulation(DPO)を介して\ TextBF {RLベースのトレーニング戦略}を紹介します。
複雑な推論ベンチマーク(GPQA、GAIA、WebWalkerQA、HLE)および科学レポート生成タスク(Glaive)に関する広範な実験は、WebThinkerが既存の方法と強力な独自のシステムを大幅に上回ることを示しています。
私たちのアプローチは、複雑なシナリオでのLRMの信頼性と適用性を高め、より能力が高く汎用性の高い深い研究システムへの道を開いています。
このコードは、https://github.com/ruc-nlpir/webthinkerで入手できます。

要約(オリジナル)

Large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, demonstrate impressive long-horizon reasoning capabilities. However, their reliance on static internal knowledge limits their performance on complex, knowledge-intensive tasks and hinders their ability to produce comprehensive research reports requiring synthesis of diverse web information. To address this, we propose \textbf{WebThinker}, a deep research agent that empowers LRMs to autonomously search the web, navigate web pages, and draft research reports during the reasoning process. WebThinker integrates a \textbf{Deep Web Explorer} module, enabling LRMs to dynamically search, navigate, and extract information from the web when encountering knowledge gaps. It also employs an \textbf{Autonomous Think-Search-and-Draft strategy}, allowing the model to seamlessly interleave reasoning, information gathering, and report writing in real time. To further enhance research tool utilization, we introduce an \textbf{RL-based training strategy} via iterative online Direct Preference Optimization (DPO). Extensive experiments on complex reasoning benchmarks (GPQA, GAIA, WebWalkerQA, HLE) and scientific report generation tasks (Glaive) demonstrate that WebThinker significantly outperforms existing methods and strong proprietary systems. Our approach enhances LRM reliability and applicability in complex scenarios, paving the way for more capable and versatile deep research systems. The code is available at https://github.com/RUC-NLPIR/WebThinker.

arxiv情報

著者 Xiaoxi Li,Jiajie Jin,Guanting Dong,Hongjin Qian,Yutao Zhu,Yongkang Wu,Ji-Rong Wen,Zhicheng Dou
発行日 2025-04-30 16:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク