要約
検索拡張生成 (RAG) は、大規模な言語モデルの一般的なアプリケーションになっています。
成功した RAG システムは、幻覚なしで通路に接地することによってサポートされる正確な回答を提供することが望ましいです。
完全な RAG パイプラインを構築するにはかなりの作業が必要ですが、パフォーマンスのベンチマークを実行できることも必要です。
完全な RAG パイプライン用のベンチマーク長文質問応答データセットである ClapNQ を紹介します。
ClapNQ には、Natural question (NQ) からの根拠のあるゴールドパッセージを含む長い回答と、検索、生成、または RAG パイプライン全体を実行するためのコーパスが含まれています。
ClapNQ の回答は簡潔で、パッセージ全体よりも 3 倍小さく、連続していない複数のパッセージ部分でまとまっています。
ClapNQ で成功するには、RAG モデルがこれらの特性に適応する必要があります。
ClapNQ のベースライン実験と分析を示し、接地 RAG にまだ大きな改善の余地がある領域を強調します。
CLAPNQ は https://github.com/primeqa/clapnq で公開されています
要約(オリジナル)
Retrieval Augmented Generation (RAG) has become a popular application for large language models. It is preferable that successful RAG systems provide accurate answers that are supported by being grounded in a passage without any hallucinations. While considerable work is required for building a full RAG pipeline, being able to benchmark performance is also necessary. We present ClapNQ, a benchmark Long-form Question Answering dataset for the full RAG pipeline. ClapNQ includes long answers with grounded gold passages from Natural Questions (NQ) and a corpus to perform either retrieval, generation, or the full RAG pipeline. The ClapNQ answers are concise, 3x smaller than the full passage, and cohesive, with multiple pieces of the passage that are not contiguous. RAG models must adapt to these properties to be successful at ClapNQ. We present baseline experiments and analysis for ClapNQ that highlight areas where there is still significant room for improvement in grounded RAG. CLAPNQ is publicly available at https://github.com/primeqa/clapnq
arxiv情報
著者 | Sara Rosenthal,Avirup Sil,Radu Florian,Salim Roukos |
発行日 | 2024-04-02 17:00:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google