要約
動的に進化する知識を活用することにより、クエリを繰り返し洗練し、コンテキストエビデンスをフィルタリングし、フィルターを繰り返します。
システムの決定的な機能は、クエリの生成と証拠の選択の両方をガイドするために徐々に更新される内部知識キャッシュからの外部ソースのデカップリングです。
この設計は、バイアスの拡張ループを軽減し、動的で追跡可能な検索探索パスを可能にし、それにより、多様な情報の探索と自律エージェントの意思決定による精度を維持することとのトレードオフを最適化します。
私たちのアプローチは、特に明示的な推論または計画能力を欠いているLLMの脆弱性を考えると、複数のソースからの情報を統合することが重要である現実世界のシナリオを反映するマルチステップタスクを含む、広範囲のオープンドメイン質問ベンチマークで評価されます。
結果は、提案されたシステムが、タスクの難易度に関係なく単一ステップのベースラインを上回るだけでなく、従来の反復検索方法と比較して、正確なエビデンスに基づいた推論と効率の向上を通じて複雑なタスクの顕著な利点を示していることを示しています。
提案されたシステムは、更新されたコンテキストの競争力と共同共有の両方をサポートし、マルチエージェント拡張を可能にします。
マルチエージェント構成の利点は、タスクの難易度が増加するにつれて特に顕著になります。
収束の数は、タスクの難易度を備えたスケールであり、費用対効果の高いスケーラビリティを示唆しています。
要約(オリジナル)
We introduce a novel large language model (LLM)-driven agent framework, which iteratively refines queries and filters contextual evidence by leveraging dynamically evolving knowledge. A defining feature of the system is its decoupling of external sources from an internal knowledge cache that is progressively updated to guide both query generation and evidence selection. This design mitigates bias-reinforcement loops and enables dynamic, trackable search exploration paths, thereby optimizing the trade-off between exploring diverse information and maintaining accuracy through autonomous agent decision-making. Our approach is evaluated on a broad range of open-domain question answering benchmarks, including multi-step tasks that mirror real-world scenarios where integrating information from multiple sources is critical, especially given the vulnerabilities of LLMs that lack explicit reasoning or planning capabilities. The results show that the proposed system not only outperforms single-step baselines regardless of task difficulty but also, compared to conventional iterative retrieval methods, demonstrates pronounced advantages in complex tasks through precise evidence-based reasoning and enhanced efficiency. The proposed system supports both competitive and collaborative sharing of updated context, enabling multi-agent extension. The benefits of multi-agent configurations become especially prominent as task difficulty increases. The number of convergence steps scales with task difficulty, suggesting cost-effective scalability.
arxiv情報
著者 | Seyoung Song |
発行日 | 2025-03-17 15:27:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google