要約
検索された世代(RAG)の最近の進歩は、大規模な言語モデル(LLM)を外部情報検索と統合し、多様なアプリケーション全体で正確で最新の、検証可能なテキスト生成を可能にすることにより、自然言語処理に革命をもたらしました。
ただし、RAGシステムを評価することは、検索コンポーネントと生成コンポーネントを組み合わせたハイブリッドアーキテクチャ、およびLLM時代の動的知識ソースへの依存により、独自の課題を提示します。
これに応じて、このペーパーでは、LLM時代のシステムパフォーマンス、事実上の正確性、安全性、および計算効率について、従来および新興の評価アプローチを体系的にレビューするRAG評価方法とフレームワークに関する包括的な調査を提供します。
また、RAG固有のデータセットと評価フレームワークをコンパイルして分類し、影響力の高いRAG研究で評価慣行のメタ分析を実施します。
私たちの知る限り、この研究は、ぼろきれの評価、従来のLLM駆動型の方法とLLM駆動型の方法を埋めるための最も包括的な調査を表し、ぼろきれ開発を進めるための重要なリソースとして機能します。
要約(オリジナル)
Recent advancements in Retrieval-Augmented Generation (RAG) have revolutionized natural language processing by integrating Large Language Models (LLMs) with external information retrieval, enabling accurate, up-to-date, and verifiable text generation across diverse applications. However, evaluating RAG systems presents unique challenges due to their hybrid architecture that combines retrieval and generation components, as well as their dependence on dynamic knowledge sources in the LLM era. In response, this paper provides a comprehensive survey of RAG evaluation methods and frameworks, systematically reviewing traditional and emerging evaluation approaches, for system performance, factual accuracy, safety, and computational efficiency in the LLM era. We also compile and categorize the RAG-specific datasets and evaluation frameworks, conducting a meta-analysis of evaluation practices in high-impact RAG research. To the best of our knowledge, this work represents the most comprehensive survey for RAG evaluation, bridging traditional and LLM-driven methods, and serves as a critical resource for advancing RAG development.
arxiv情報
著者 | Aoran Gan,Hao Yu,Kai Zhang,Qi Liu,Wenyu Yan,Zhenya Huang,Shiwei Tong,Guoping Hu |
発行日 | 2025-04-21 06:39:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google