要約
検索拡張生成(RAG)は、言語モデルの知識を強化し、AIの生成幻覚を減少させる強力な能力を示しており、その普及を後押ししている。しかし、多ラウンド検索を必要とする複雑なタスクは依然として困難であり、初期の試みは、自己懐疑的な感覚を持たずに過度に楽観的になりがちである。現在の多ラウンドRAGシステムは、十分な情報がすでに検索されているにもかかわらず検索を続けたり、十分な情報や知識を持たないまま誤った答えを出したりすることがある。既存のソリューションは、高価な人間によるラベル付けされた大量のプロセス監視データを必要とするか、あるいは劣悪なパフォーマンスにつながる。 本論文では、RAGシステムの自己認識と多ラウンド検索能力を明示的に強化するための新しいフレームワーク( \textbf{SIM-RAG}) を導入することで、これらの限界に対処することを目的とする。SIM-RAGを訓練するために、まずRAGシステムに多ラウンド検索を自己練習させ、既存の質問と答えのペアを中間的な内部モノローグ推論ステップで補強し、合成訓練データを生成する。各ペアに対して、システムは複数の検索パスを探索することができ、正解に到達すれば成功、そうでなければ失敗とラベル付けされる。このデータを用いて、軽量な情報充足性クリティックを訓練する。推論時に、CriticはRAGシステムが各ラウンドで十分な情報を検索したかどうかを評価し、検索決定を導き、文脈内強化学習によりシステムレベルの自己認識を向上させる。 複数の著名なRAGベンチマークにおける実験から、SIM-RAGが効果的なマルチラウンドRAGソリューションであることが示されている。さらに、このフレームワークはシステム効率に優れ、既存のLLMや検索エンジンに変更を加えることなく、RAGに軽量なコンポーネントを追加する。
要約(オリジナル)
Retrieval Augmented Generation (RAG) has shown strong capability in enhancing language models’ knowledge and reducing AI generative hallucinations, driving its widespread use. However, complex tasks requiring multi-round retrieval remain challenging, and early attempts tend to be overly optimistic without a good sense of self-skepticism. Current multi-round RAG systems may continue searching even when enough information has already been retrieved, or they may provide incorrect answers without having sufficient information or knowledge. Existing solutions either require large amounts of expensive human-labeled process supervision data or lead to subpar performance. This paper aims to address these limitations by introducing a new framework, \textbf{SIM-RAG}, to explicitly enhance RAG systems’ self-awareness and multi-round retrieval capabilities. To train SIM-RAG, we first let a RAG system self-practice multi-round retrieval, augmenting existing question-answer pairs with intermediate inner monologue reasoning steps to generate synthetic training data. For each pair, the system may explore multiple retrieval paths, which are labeled as successful if they reach the correct answer and unsuccessful otherwise. Using this data, we train a lightweight information sufficiency Critic. At inference time, the Critic evaluates whether the RAG system has retrieved sufficient information at each round, guiding retrieval decisions and improving system-level self-awareness through in-context reinforcement learning. Experiments across multiple prominent RAG benchmarks show that SIM-RAG is an effective multi-round RAG solution. Furthermore, this framework is system-efficient, adding a lightweight component to RAG without requiring modifications to existing LLMs or search engines, and data-efficient, eliminating the need for costly human-annotated mid-step retrieval process supervision data.
arxiv情報
著者 | Diji Yang,Linda Zeng,Jinmeng Rao,Yi Zhang |
発行日 | 2025-05-05 17:39:35+00:00 |
arxivサイト | arxiv_id(pdf) |