要約
大規模な言語モデル(LLMS)の急速な進歩により、検索エンジンやWebブラウザーなどのツールの統合を通じて、エージェント情報探索機能の景観が変わりました。
ただし、LLM Web検索の習熟度を可能にするための現在の主流のアプローチは、重大な課題に直面しています。オープンサーチドメインでのデータ生成との監視された微調整闘争は、迅速に収束し、データ使用率の効率を制限します。
これらの問題に対処するために、SFTとRLを組み合わせた新しい反復自己進化フレームワークであるEvolveSearchを提案し、外部の人間に認定された推論データなしでエージェントWeb検索機能を強化します。
7つのマルチホップ質問(MHQA)ベンチマークでの広範な実験は、EvolveSearchが一貫して反復全体でパフォーマンスを改善し、最終的に7つのベンチマークにわたって現在の最先端の平均改善を達成し、オープンウェブ検索ドメインの自己進化エージェントの能力へのドアを開けることを示しています。
要約(オリジナル)
The rapid advancement of large language models (LLMs) has transformed the landscape of agentic information seeking capabilities through the integration of tools such as search engines and web browsers. However, current mainstream approaches for enabling LLM web search proficiency face significant challenges: supervised fine-tuning struggles with data production in open-search domains, while RL converges quickly, limiting their data utilization efficiency. To address these issues, we propose EvolveSearch, a novel iterative self-evolution framework that combines SFT and RL to enhance agentic web search capabilities without any external human-annotated reasoning data. Extensive experiments on seven multi-hop question-answering (MHQA) benchmarks demonstrate that EvolveSearch consistently improves performance across iterations, ultimately achieving an average improvement of 4.7\% over the current state-of-the-art across seven benchmarks, opening the door to self-evolution agentic capabilities in open web search domains.
arxiv情報
著者 | Dingchu Zhang,Yida Zhao,Jialong Wu,Baixuan Li,Wenbiao Yin,Liwen Zhang,Yong Jiang,Yufeng Li,Kewei Tu,Pengjun Xie,Fei Huang |
発行日 | 2025-05-28 15:50:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google