RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

要約

検索拡張生成 (RAG) は外部知識を活用する有望な機能を示していますが、RAG システムの包括的な評価は、RAG のモジュール型の性質、長い形式の応答の評価、および測定の信頼性により依然として困難です。
このペーパーでは、取得モジュールと生成モジュールの両方に一連の診断メトリックを組み込んだ、きめ細かい評価フレームワークである RAGChecker を提案します。
メタ評価では、RAGChecker が他の評価指標よりも人間の判断との相関性が大幅に優れていることが検証されます。
RAGChecker を使用して、8 つの RAG システムを評価し、そのパフォーマンスの詳細な分析を実施し、RAG アーキテクチャの設計選択における洞察力に富んだパターンとトレードオフを明らかにします。
RAGChecker のメトリクスは、研究者や実務者がより効果的な RAG システムを開発する際のガイドとなります。

要約(オリジナル)

Despite Retrieval-Augmented Generation (RAG) has shown promising capability in leveraging external knowledge, a comprehensive evaluation of RAG systems is still challenging due to the modular nature of RAG, evaluation of long-form responses and reliability of measurements. In this paper, we propose a fine-grained evaluation framework, RAGChecker, that incorporates a suite of diagnostic metrics for both the retrieval and generation modules. Meta evaluation verifies that RAGChecker has significantly better correlations with human judgments than other evaluation metrics. Using RAGChecker, we evaluate 8 RAG systems and conduct an in-depth analysis of their performance, revealing insightful patterns and trade-offs in the design choices of RAG architectures. The metrics of RAGChecker can guide researchers and practitioners in developing more effective RAG systems.

arxiv情報

著者 Dongyu Ru,Lin Qiu,Xiangkun Hu,Tianhang Zhang,Peng Shi,Shuaichen Chang,Jiayang Cheng,Cunxiang Wang,Shichao Sun,Huanyu Li,Zizhao Zhang,Binjie Wang,Jiarong Jiang,Tong He,Zhiguo Wang,Pengfei Liu,Yue Zhang,Zheng Zhang
発行日 2024-08-15 10:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク