RAGAS: Automated Evaluation of Retrieval Augmented Generation

要約

取得拡張生成 (RAG) パイプラインをリファレンスフリーで評価するためのフレームワークである RAGA (取得拡張生成評価) を紹介します。
RAG システムは、検索モジュールと LLM ベースの生成モジュールで構成され、参照テキスト データベースからの知識を LLM に提供します。これにより、LLM はユーザーとテキスト データベースの間の自然言語層として機能し、幻覚のリスクを軽減できます。
ただし、RAG アーキテクチャの評価は、いくつかの側面を考慮する必要があるため、困難です。たとえば、関連性のある集中的なコンテキストのパッセージを識別する検索システムの能力、そのようなパッセージを忠実に利用する LLM の能力、または生成の品質などです。
自体。
RAGA を使用して、\textit{地上の真実の人による注釈に依存することなく}、これらのさまざまな次元を評価するために使用できる一連の指標を提案します。
私たちは、このようなフレームワークが RAG アーキテクチャの評価サイクルの高速化に大きく貢献できると考えています。これは、LLM の急速な導入を考えると特に重要です。

要約(オリジナル)

We introduce RAGAs (Retrieval Augmented Generation Assessment), a framework for reference-free evaluation of Retrieval Augmented Generation (RAG) pipelines. RAG systems are composed of a retrieval and an LLM based generation module, and provide LLMs with knowledge from a reference textual database, which enables them to act as a natural language layer between a user and textual databases, reducing the risk of hallucinations. Evaluating RAG architectures is, however, challenging because there are several dimensions to consider: the ability of the retrieval system to identify relevant and focused context passages, the ability of the LLM to exploit such passages in a faithful way, or the quality of the generation itself. With RAGAs, we put forward a suite of metrics which can be used to evaluate these different dimensions \textit{without having to rely on ground truth human annotations}. We posit that such a framework can crucially contribute to faster evaluation cycles of RAG architectures, which is especially important given the fast adoption of LLMs.

arxiv情報

著者 Shahul Es,Jithin James,Luis Espinosa-Anke,Steven Schockaert
発行日 2023-09-26 19:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク