要約
検索された生成(RAG)は、大規模な言語モデル(LLM)の幻覚を減らすための一般的な戦略です。
強化学習(RL)により、検索機能をアクティブにすることによりLLMが検索エージェントとして機能する可能性がありますが、既存の機能は内部知識を十分に活用していないことがよくあります。
これにより、冗長な検索、潜在的な有害な知識の対立、および推論潜時の増加につながる可能性があります。
これらの制限に対処するために、最適な検索タイミングを識別し、パラメトリック(内部)および検索(外部)の知識を相乗的に統合することができる効率的で適応的な検索エージェントが緊急に必要です。
このホワイトペーパーでは、強化された内部外側知識相乗推論エージェント(IKEA)を紹介します。これは、独自の知識の境界を識別し、内部知識の利用を優先し、内部知識が不十分であるとみなされた場合にのみ外部検索に頼ることができます。
これは、新しい知識に基づいた認識報酬機能と知識に基づいた認識トレーニングデータセットを使用して達成されます。
これらは、内部知識の相乗志向のRL向けに設計されており、モデルに正確な回答を提供し、不必要な検索を最小限に抑え、自分の知識が不足している場合に適切な外部検索を奨励します。
複数の知識推論タスクにわたる評価は、IKEAがベースラインメソッドを大幅に上回り、検索頻度を大幅に減らし、堅牢な一般化機能を示すことを示しています。
要約(オリジナル)
Retrieval-augmented generation (RAG) is a common strategy to reduce hallucinations in Large Language Models (LLMs). While reinforcement learning (RL) can enable LLMs to act as search agents by activating retrieval capabilities, existing ones often underutilize their internal knowledge. This can lead to redundant retrievals, potential harmful knowledge conflicts, and increased inference latency. To address these limitations, an efficient and adaptive search agent capable of discerning optimal retrieval timing and synergistically integrating parametric (internal) and retrieved (external) knowledge is in urgent need. This paper introduces the Reinforced Internal-External Knowledge Synergistic Reasoning Agent (IKEA), which could indentify its own knowledge boundary and prioritize the utilization of internal knowledge, resorting to external search only when internal knowledge is deemed insufficient. This is achieved using a novel knowledge-boundary aware reward function and a knowledge-boundary aware training dataset. These are designed for internal-external knowledge synergy oriented RL, incentivizing the model to deliver accurate answers, minimize unnecessary retrievals, and encourage appropriate external searches when its own knowledge is lacking. Evaluations across multiple knowledge reasoning tasks demonstrate that IKEA significantly outperforms baseline methods, reduces retrieval frequency significantly, and exhibits robust generalization capabilities.
arxiv情報
著者 | Ziyang Huang,Xiaowei Yuan,Yiming Ju,Jun Zhao,Kang Liu |
発行日 | 2025-05-12 14:21:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google