要約
検索拡張生成(RAG)パイプラインの参照フリー評価のフレームワークであるRagas(検索拡張生成評価)を紹介します。
RAGシステムは、検索とLLMベースのジェネレーションモジュールで構成されており、LLMSに参照テキストデータベースからの知識を提供します。これにより、ユーザーとテキストデータベースの間の自然言語層として機能し、幻覚のリスクが軽減されます。
ただし、RAGアーキテクチャの評価は、考慮すべきいくつかの次元があるため、困難です。関連する焦点を絞ったコンテキストパッセージを識別する検索システムの能力、LLMがそのようなパッセージを忠実な方法で悪用する能力、または世代自体の品質です。
Ragasを使用すると、これらのさまざまな寸法\ Textit {地面に依存することなく評価するために使用できる一連のメトリックを提出しました。
このようなフレームワークは、LAGアーキテクチャのより速い評価サイクルに決定的に貢献できると仮定します。これは、LLMSの迅速な採用を考えると特に重要です。
要約(オリジナル)
We introduce Ragas (Retrieval Augmented Generation Assessment), a framework for reference-free evaluation of Retrieval Augmented Generation (RAG) pipelines. RAG systems are composed of a retrieval and an LLM based generation module, and provide LLMs with knowledge from a reference textual database, which enables them to act as a natural language layer between a user and textual databases, reducing the risk of hallucinations. Evaluating RAG architectures is, however, challenging because there are several dimensions to consider: the ability of the retrieval system to identify relevant and focused context passages, the ability of the LLM to exploit such passages in a faithful way, or the quality of the generation itself. With Ragas, we put forward a suite of metrics which can be used to evaluate these different dimensions \textit{without having to rely on ground truth human annotations}. We posit that such a framework can crucially contribute to faster evaluation cycles of RAG architectures, which is especially important given the fast adoption of LLMs.
arxiv情報
著者 | Shahul Es,Jithin James,Luis Espinosa-Anke,Steven Schockaert |
発行日 | 2025-04-28 05:09:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google