要約
堅牢な評価は、信頼できる検索の高等世代(RAG)システムを展開するために重要です。
ただし、現在のLLMベースの評価フレームワークは、複雑なマルチステージプロンプトを備えたリソース集約型モデルを直接促すことに、モデルの推論機能を十分に活用し、大幅な計算コストを導入することに直接依存しています。
このホワイトペーパーでは、ルール誘導推論タスクとして忠実さと正確性評価を策定する新しいエンドツーエンドのフレームワークであるRag-Zeval(Rag-Zero Evaluator)を紹介します。
私たちのアプローチは、強化学習を備えた評価者を訓練し、コンパクトモデルを促進し、ワンパスで詳細な説明を含む包括的および健全な評価を生成します。
絶対スコアではなく優先判断を使用して、ランキングベースの結果報酬メカニズムを導入して、正確なポイントワイズ報酬信号を取得するという課題に対処します。
この目的のために、人間の注釈がゼロで品質管理された応答を生成することにより、ランキング参照を合成します。
実験は、Rag-Zevalの優れたパフォーマンスを示しており、人間の判断との最も強い相関関係を達成し、LLMSに10〜100倍のパラメーターで依存しているベースラインよりも優れています。
また、私たちのアプローチは、応答評価において優れた解釈可能性を示しています。
要約(オリジナル)
Robust evaluation is critical for deploying trustworthy retrieval-augmented generation (RAG) systems. However, current LLM-based evaluation frameworks predominantly rely on directly prompting resource-intensive models with complex multi-stage prompts, underutilizing models’ reasoning capabilities and introducing significant computational cost. In this paper, we present RAG-Zeval (RAG-Zero Evaluator), a novel end-to-end framework that formulates faithfulness and correctness evaluation as a rule-guided reasoning task. Our approach trains evaluators with reinforcement learning, facilitating compact models to generate comprehensive and sound assessments with detailed explanation in one-pass. We introduce a ranking-based outcome reward mechanism, using preference judgments rather than absolute scores, to address the challenge of obtaining precise pointwise reward signals. To this end, we synthesize the ranking references by generating quality-controlled responses with zero human annotation. Experiments demonstrate RAG-Zeval’s superior performance, achieving the strongest correlation with human judgments and outperforming baselines that rely on LLMs with 10-100 times more parameters. Our approach also exhibits superior interpretability in response evaluation.
arxiv情報
著者 | Kun Li,Yunxiang Li,Tianhua Zhang,Hongyin Luo,Xixin Wu,James Glass,Helen Meng |
発行日 | 2025-05-28 14:55:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google