要約
検索拡張生成 (RAG) システムは、ドメイン固有の知識ベースを照会するために、さまざまな業界にわたって積極的に研究され、導入されてきました。
しかし、これらのシステムの評価には、ドメイン固有のクエリと対応するグランド トゥルースが不足していること、また障害の原因が知識不足に起因するのか、システムに関連する問題に起因するのかにかかわらず、障害ケースの原因を診断するための体系的なアプローチが欠如しているため、特有の課題が生じています。
堅牢性。
これらの課題に対処するために、GRAMMAR (RAG の評価のための GRounded And Modular Methodology) を導入します。これは、2 つの重要な要素で構成される評価フレームワークです。1) リレーショナル データベースと LLM を活用して、スケーラブルなクエリと回答のペアを効率的に生成するデータ生成プロセス。
この方法により、クエリ ロジックを言語バリエーションから分離しやすくなり、デバッグ機能が強化されます。
2) 知識のギャップと堅牢性を区別し、欠陥のあるモジュールの特定を可能にする評価フレームワーク。
私たちの経験的結果は、現在のリファレンスフリー評価アプローチの限界と、モデルの脆弱性を正確に特定するための GRAMMAR の信頼性を強調しています。
要約(オリジナル)
Retrieval-augmented Generation (RAG) systems have been actively studied and deployed across various industries to query on domain-specific knowledge base. However, evaluating these systems presents unique challenges due to the scarcity of domain-specific queries and corresponding ground truths, as well as a lack of systematic approaches to diagnosing the cause of failure cases — whether they stem from knowledge deficits or issues related to system robustness. To address these challenges, we introduce GRAMMAR (GRounded And Modular Methodology for Assessment of RAG), an evaluation framework comprising two key elements: 1) a data generation process that leverages relational databases and LLMs to efficiently produce scalable query-answer pairs. This method facilitates the separation of query logic from linguistic variations for enhanced debugging capabilities; and 2) an evaluation framework that differentiates knowledge gaps from robustness and enables the identification of defective modules. Our empirical results underscore the limitations of current reference-free evaluation approaches and the reliability of GRAMMAR to accurately identify model vulnerabilities.
arxiv情報
著者 | Xinzhe Li,Ming Liu,Shang Gao |
発行日 | 2024-05-09 01:46:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google