Long$^2$RAG: Evaluating Long-Context & Long-Form Retrieval-Augmented Generation with Key Point Recall

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)における固定知識の制限に対処するための有望なアプローチです。
ただし、RAGシステムを評価するための現在のベンチマークは、2つの重要な欠陥に悩まされています。(1)検索されたドキュメントの特性を反映したデータセットの欠如により、長いコンテキストの検索においてLLMの機能を適切に測定できないこと、および(2)
検索された情報を効果的に活用する長型応答を生成するLLMSの能力を評価するための包括的な評価方法がありません。
これらの欠点に対処するために、長い$^2 $ RAGベンチマークとキーポイントリコール(KPR)メトリックを紹介します。
長い$^2 $ ragは、10のドメインと8つの質問カテゴリにまたがる280の質問で構成されており、それぞれが平均長さ2,444語の5つの取得ドキュメントに関連付けられています。
KPRは、検索されたドキュメントから抽出されたキーポイントが生成された応答に抽出されたキーポイントを組み込む程度を評価し、検索された情報を活用する能力のより微妙な評価を提供します。

要約(オリジナル)

Retrieval-augmented generation (RAG) is a promising approach to address the limitations of fixed knowledge in large language models (LLMs). However, current benchmarks for evaluating RAG systems suffer from two key deficiencies: (1) they fail to adequately measure LLMs’ capability in handling long-context retrieval due to a lack of datasets that reflect the characteristics of retrieved documents, and (2) they lack a comprehensive evaluation method for assessing LLMs’ ability to generate long-form responses that effectively exploits retrieved information. To address these shortcomings, we introduce the Long$^2$RAG benchmark and the Key Point Recall (KPR) metric. Long$^2$RAG comprises 280 questions spanning 10 domains and across 8 question categories, each associated with 5 retrieved documents with an average length of 2,444 words. KPR evaluates the extent to which LLMs incorporate key points extracted from the retrieved documents into their generated responses, providing a more nuanced assessment of their ability to exploit retrieved information.

arxiv情報

著者 Zehan Qi,Rongwu Xu,Zhijiang Guo,Cunxiang Wang,Hao Zhang,Wei Xu
発行日 2025-01-27 11:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク