要約
検索拡張生成 (RAG) は、ラージ言語モデル (LLM) を利用したユーザー向けチャット アプリケーションにドメイン固有の知識を組み込むための標準的なアーキテクチャ パターンとなっています。
RAG システムの特徴は、(1) 入力クエリに関連するコンテキスト情報をドメイン固有のコーパスに問い合わせるドキュメント検索機能と、(2) 提供されたクエリとコンテキストに基づいて応答を生成する LLM です。
ただし、統一された評価基準と注釈付きのデータセットが不足しているため、RAG システムの包括的な評価は依然として課題です。
これに応えて、100,000 例からなる初の包括的で大規模な RAG ベンチマーク データセットである RAGBench を紹介します。
5 つの業界固有のドメインとさまざまな RAG タスク タイプをカバーしています。
RAGBench のサンプルは、ユーザー マニュアルなどの業界の資料をソースとしており、特に業界のアプリケーションに関連しています。
さらに、TRACe 評価フレームワークを形式化します。これは、すべての RAG ドメインに適用できる、説明可能かつ実用的な RAG 評価指標のセットです。
ラベル付きデータセットを https://huggingface.co/datasets/rungalileo/ragbench でリリースします。
RAGBench の説明可能なラベルは、RAG システムの総合的な評価を容易にし、運用アプリケーションの継続的な改善のための実用的なフィードバックを可能にします。
広範なベンチマークを徹底した結果、LLM ベースの RAG 評価手法は、RAG 評価タスクにおいて微調整された RoBERTa モデルと競合するのに苦労していることがわかりました。
私たちは、既存のアプローチでは不十分な領域を特定し、RAG 評価システムの現状を前進させるために、TRACe を備えた RAGBench の採用を提案します。
要約(オリジナル)
Retrieval-Augmented Generation (RAG) has become a standard architectural pattern for incorporating domain-specific knowledge into user-facing chat applications powered by Large Language Models (LLMs). RAG systems are characterized by (1) a document retriever that queries a domain-specific corpus for context information relevant to an input query, and (2) an LLM that generates a response based on the provided query and context. However, comprehensive evaluation of RAG systems remains a challenge due to the lack of unified evaluation criteria and annotated datasets. In response, we introduce RAGBench: the first comprehensive, large-scale RAG benchmark dataset of 100k examples. It covers five unique industry-specific domains and various RAG task types. RAGBench examples are sourced from industry corpora such as user manuals, making it particularly relevant for industry applications. Further, we formalize the TRACe evaluation framework: a set of explainable and actionable RAG evaluation metrics applicable across all RAG domains. We release the labeled dataset at https://huggingface.co/datasets/rungalileo/ragbench. RAGBench explainable labels facilitate holistic evaluation of RAG systems, enabling actionable feedback for continuous improvement of production applications. Thorough extensive benchmarking, we find that LLM-based RAG evaluation methods struggle to compete with a finetuned RoBERTa model on the RAG evaluation task. We identify areas where existing approaches fall short and propose the adoption of RAGBench with TRACe towards advancing the state of RAG evaluation systems.
arxiv情報
著者 | Robert Friel,Masha Belyi,Atindriyo Sanyal |
発行日 | 2025-01-16 10:05:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google