ZeroSearch: Incentivize the Search Capability of LLMs without Searching

要約

効果的な情報検索は、大規模な言語モデル(LLM)の推論と生成の能力を高めるために不可欠です。
最近の研究では、RENFERTION LEARNIS(RL)を使用して、実際の環境でライブ検索エンジンと対話することにより、LLMSの検索機能を改善しました。
これらのアプローチは有望な結果を示していますが、2つの主要な課題に直面しています。(1)制御されていないドキュメントの品質:検索エンジンによって返されるドキュメントの品質は予測不可能であり、トレーニングプロセスにノイズと不安定性を導入します。
(2)非常に高いAPIコスト:RLトレーニングには、頻繁にロールアウトが必要であり、潜在的に数十万の検索リクエストが関与し、かなりのAPI費用がかかり、スケーラビリティを厳しく制限します。
これらの課題に対処するために、実際の検索エンジンと対話することなくLLMの検索機能を奨励する強化学習フレームワークであるZerosearchを紹介します。
私たちのアプローチは、LLMをクエリに応じて関連するドキュメントとノイズの多いドキュメントの両方を生成できる検索モジュールに変換するための軽量の監視された微調整から始まります。
RLトレーニング中に、生成されたドキュメントの品質を徐々に低下させるカリキュラムベースのロールアウト戦略を採用し、モデルの推論能力をますます困難な検索シナリオにさらすことで徐々に引き出します。
広範な実験は、Zerosearchが3B LLMを検索モジュールとして使用してLLMの検索機能を効果的にインセンティブすることを示しています。
驚くべきことに、7B検索モジュールは実際の検索エンジンに匹敵するパフォーマンスを達成し、14B検索モジュールでもそれを上回ります。
さらに、さまざまなパラメーターサイズのベースモデルと命令チューニングされたモデルの両方でよく一般化し、幅広いRLアルゴリズムと互換性があります。

要約(オリジナル)

Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs’ search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both relevant and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model’s reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

arxiv情報

著者 Hao Sun,Zile Qiao,Jiayan Guo,Xuanbo Fan,Yingyan Hou,Yong Jiang,Pengjun Xie,Fei Huang,Yan Zhang
発行日 2025-05-07 17:30:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク