要約
大規模な推論モデル(LRM)は顕著な推論能力を示しますが、主にパラメトリックな知識に依存して、事実上の正確性を制限します。
最近の作品は、強化学習(RL)ベースのLRMSを検索機能を備えていますが、推論の考えがあり、推論に堅牢性が欠けているため、質問応答(QA)タスクの有効性が低下します。
これに対処するために、過度の反復なしに多様なクエリを探索する事実強度の推論モデルであるRemagを提案します。
私たちのソリューションには、推論チェーンの長さに上限がある新しいデータ構築フレームワークが含まれています。
具体的には、最初にLRMを活用して意図的な思考を生成し、事前定義されたアクション空間(検索と仕上げ)からアクションを選択します。
検索アクションのために、RAGエンジンに対してクエリが実行されます。このエンジンでは、結果が推論の手順を導くための観察として返されます。
このプロセスは、仕上げアクションが選択されるまで反復します。
Learagの強力な推論能力の恩恵を受けて、私たちのアプローチは、マルチホップQAの既存のベースラインよりも優れています。
さらなる分析は、エラーを認識し、その推論軌跡を改善する強力な反射能力を強調しています。
私たちの研究はLRMSの事実を強化し、検索された生成(RAG)の堅牢な推論を効果的に統合します。
要約(オリジナル)
Large Reasoning Models (LRMs) exhibit remarkable reasoning abilities but rely primarily on parametric knowledge, limiting factual accuracy. While recent works equip reinforcement learning (RL)-based LRMs with retrieval capabilities, they suffer from overthinking and lack robustness in reasoning, reducing their effectiveness in question answering (QA) tasks. To address this, we propose ReaRAG, a factuality-enhanced reasoning model that explores diverse queries without excessive iterations. Our solution includes a novel data construction framework with an upper bound on the reasoning chain length. Specifically, we first leverage an LRM to generate deliberate thinking, then select an action from a predefined action space (Search and Finish). For Search action, a query is executed against the RAG engine, where the result is returned as observation to guide reasoning steps later. This process iterates until a Finish action is chosen. Benefiting from ReaRAG’s strong reasoning capabilities, our approach outperforms existing baselines on multi-hop QA. Further analysis highlights its strong reflective ability to recognize errors and refine its reasoning trajectory. Our study enhances LRMs’ factuality while effectively integrating robust reasoning for Retrieval-Augmented Generation (RAG).
arxiv情報
著者 | Zhicheng Lee,Shulin Cao,Jinxin Liu,Jiajie Zhang,Weichuan Liu,Xiaoyin Che,Lei Hou,Juanzi Li |
発行日 | 2025-03-27 17:44:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google