Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging

要約

外部検索で大規模な言語モデル(LLMS)を増強することは、固有の知識のカットオフの制限に対処するための標準的な方法になりました。
ただし、従来の検索された生成方法では、静的かつ事前推論の検索戦略を採用しているため、曖昧、マルチステップ、または進化する情報のニーズを含む複雑なタスクには不十分になります。
テスト時間スケーリング技術の最近の進歩により、LLMが外部ツールと動的に相互作用することを可能にする重要な可能性が示され、適応推論時間検索への移行が動機付けられています。
情報の採餌理論(IFT)に触発され、Inforageを提案します。これは、検索された推論を動的な情報探索プロセスとして形式化する強化学習フレームワークです。
既存のアプローチとは異なり、Inforageは中間検索の品質に明示的に報酬を与え、LLMが適応的な検索行動を通じて情報を繰り返し収集して統合するよう奨励します。
トレーニングを容易にするために、複雑で実世界のWebタスクの反復検索と推論軌跡をキャプチャする人間のガイド付きデータセットを構築します。
一般的な質問応答、マルチホップ推論タスク、および新しく開発されたリアルタイムのWeb QAデータセットにわたる広範な評価は、ベースラインメソッドよりもInforageの優れたパフォーマンスを示しています。
これらの結果は、堅牢で適応的で効率的な推論エージェントを構築する際のInforageの有効性を強調しています。

要約(オリジナル)

Augmenting large language models (LLMs) with external retrieval has become a standard method to address their inherent knowledge cutoff limitations. However, traditional retrieval-augmented generation methods employ static, pre-inference retrieval strategies, making them inadequate for complex tasks involving ambiguous, multi-step, or evolving information needs. Recent advances in test-time scaling techniques have demonstrated significant potential in enabling LLMs to dynamically interact with external tools, motivating the shift toward adaptive inference-time retrieval. Inspired by Information Foraging Theory (IFT), we propose InForage, a reinforcement learning framework that formalizes retrieval-augmented reasoning as a dynamic information-seeking process. Unlike existing approaches, InForage explicitly rewards intermediate retrieval quality, encouraging LLMs to iteratively gather and integrate information through adaptive search behaviors. To facilitate training, we construct a human-guided dataset capturing iterative search and reasoning trajectories for complex, real-world web tasks. Extensive evaluations across general question answering, multi-hop reasoning tasks, and a newly developed real-time web QA dataset demonstrate InForage’s superior performance over baseline methods. These results highlight InForage’s effectiveness in building robust, adaptive, and efficient reasoning agents.

arxiv情報

著者 Hongjin Qian,Zheng Liu
発行日 2025-05-14 12:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク