要約
マルチホップ質問応答(QA)は、検索された生成(RAG)にかなりの課題を提示し、複雑なクエリの構造化された分解が論理的推論パスへの分解と信頼できる中間結果の生成を必要とします。
ただし、現在のRAGメソッドでよく見られる中間結果の推論パスまたはエラーの逸脱は、推論プロセス全体で伝播して蓄積し、複雑なクエリに対する答えの精度を低下させる可能性があります。
この課題に対処するために、計画、行動、およびレビューの3つの重要な段階に編成された計画 – アクトとレビュー(PAR RAG)フレームワークを提案し、解釈可能で漸進的な推論パラダイムを提供することを目的としています。
全体的な観点からのステップ。
このアプローチは、従来のRAGメソッドで一般的なローカルオプティマの落とし穴を回避し、推論パス全体の正確性を確保します。
その後、PAR RAGには、多粒度検証に基づいた計画実行メカニズムが組み込まれています。
粗粒の類似性情報と細粒の関連データの両方を利用することにより、フレームワークは中間結果を徹底的にチェックおよび調整し、エラーの伝播と増幅を効果的に管理しながらプロセスの精度を確保します。
マルチホップQAデータセットの実験結果は、PAR RAGフレームワークがEMやF1スコアを含む主要なメトリックの既存の最先端の方法を大幅に上回ることを示しています。
要約(オリジナル)
Multi-hop question answering (QA) presents a considerable challenge for Retrieval-Augmented Generation (RAG), requiring the structured decomposition of complex queries into logical reasoning paths and the generation of dependable intermediate results. However, deviations in reasoning paths or errors in intermediate results, which are common in current RAG methods, may propagate and accumulate throughout the reasoning process, diminishing the accuracy of the answer to complex queries. To address this challenge, we propose the Plan-then-Act-and-Review (PAR RAG) framework, which is organized into three key stages: planning, act, and review, and aims to offer an interpretable and incremental reasoning paradigm for accurate and reliable multi-hop question answering by mitigating error propagation.PAR RAG initially applies a top-down problem decomposition strategy, formulating a comprehensive plan that integrates multiple executable steps from a holistic viewpoint. This approach avoids the pitfalls of local optima common in traditional RAG methods, ensuring the accuracy of the entire reasoning path. Subsequently, PAR RAG incorporates a plan execution mechanism based on multi-granularity verification. By utilizing both coarse-grained similarity information and fine-grained relevant data, the framework thoroughly checks and adjusts intermediate results, ensuring process accuracy while effectively managing error propagation and amplification. Experimental results on multi-hop QA datasets demonstrate that the PAR RAG framework substantially outperforms existing state-of-the-art methods in key metrics, including EM and F1 scores.
arxiv情報
著者 | Ningning Zhang,Chi Zhang,Zhizhong Tan,Xingxing Yang,Weiping Deng,Wenyong Wang |
発行日 | 2025-04-23 15:03:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google