Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

要約

大規模な言語モデルは、印象的な推論能力を実証していますが、知識貯蔵庫によって本質的に制限されています。
検索された推論は、LLMSが外部リソースを照会できるようにすることにより、この制限を軽減しますが、既存の方法はしばしば無関係または騒々しい情報を取得し、正確な推論を妨げます。
このペーパーでは、新しい「検索とリファイン – デューリング」パラダイムを採用する補強学習後の枠組みであるAutoreFineを提案します。
AutoreFineは、連続した検索コール間の明示的な知識の改良ステップを導入し、回答を生成する前に証拠を反復的にフィルタリング、蒸留、整理することを可能にします。
さらに、グループ相対ポリシーの最適化を使用して、回答の正確性報酬とともに、調整された検索固有の報酬を組み込みます。
シングルホップおよびマルチホップQAベンチマークの実験は、特に複雑でマルチホップの推論シナリオで、自動化が既存のアプローチを大幅に上回ることを示しています。
詳細な分析によると、頻繁で高品質の検索が発行され、証拠を効果的に統合することが示されています。

要約(オリジナル)

Large language models have demonstrated impressive reasoning capabilities but are inherently limited by their knowledge reservoir. Retrieval-augmented reasoning mitigates this limitation by allowing LLMs to query external resources, but existing methods often retrieve irrelevant or noisy information, hindering accurate reasoning. In this paper, we propose AutoRefine, a reinforcement learning post-training framework that adopts a new “search-and-refine-during-think” paradigm. AutoRefine introduces explicit knowledge refinement steps between successive search calls, enabling the model to iteratively filter, distill, and organize evidence before generating an answer. Furthermore, we incorporate tailored retrieval-specific rewards alongside answer correctness rewards using group relative policy optimization. Experiments on single-hop and multi-hop QA benchmarks demonstrate that AutoRefine significantly outperforms existing approaches, particularly in complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine issues frequent, higher-quality searches and synthesizes evidence effectively.

arxiv情報

著者 Yaorui Shi,Shihan Li,Chang Wu,Zhiyuan Liu,Junfeng Fang,Hengxing Cai,An Zhang,Xiang Wang
発行日 2025-05-16 14:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク