Long$^2$RAG: Evaluating Long-Context & Long-Form Retrieval-Augmented Generation with Key Point Recall

要約

検索拡張生成 (RAG) は、大規模言語モデル (LLM) における固定知識の制限に対処するための有望なアプローチです。
しかし、RAG システムを評価するための現在のベンチマークには、2 つの重要な欠陥があります。(1) 取得されたドキュメントの特性を反映するデータセットが不足しているため、長いコンテキストの取得を処理する LLM の能力を適切に測定できません。(2)
取得した情報を効果的に活用する長文の応答を生成する LLM の能力を評価するための包括的な評価方法がありません。
これらの欠点に対処するために、Long$^2$RAG ベンチマークと Key Point Recall (KPR) メトリクスを導入します。
Long$^2$RAG は、10 のドメインと 8 つの質問カテゴリにまたがる 280 の質問で構成され、それぞれが平均長 2,444 ワードの 5 つの取得されたドキュメントに関連付けられています。
KPR は、LLM が取得した文書から抽出したキーポイントを生成された応答にどの程度組み込んでいるかを評価し、取得した情報を悪用する能力についてのより微妙な評価を提供します。

要約(オリジナル)

Retrieval-augmented generation (RAG) is a promising approach to address the limitations of fixed knowledge in large language models (LLMs). However, current benchmarks for evaluating RAG systems suffer from two key deficiencies: (1) they fail to adequately measure LLMs’ capability in handling long-context retrieval due to a lack of datasets that reflect the characteristics of retrieved documents, and (2) they lack a comprehensive evaluation method for assessing LLMs’ ability to generate long-form responses that effectively exploits retrieved information. To address these shortcomings, we introduce the Long$^2$RAG benchmark and the Key Point Recall (KPR) metric. Long$^2$RAG comprises 280 questions spanning 10 domains and across 8 question categories, each associated with 5 retrieved documents with an average length of 2,444 words. KPR evaluates the extent to which LLMs incorporate key points extracted from the retrieved documents into their generated responses, providing a more nuanced assessment of their ability to exploit retrieved information.

arxiv情報

著者 Zehan Qi,Rongwu Xu,Zhijiang Guo,Cunxiang Wang,Hao Zhang,Wei Xu
発行日 2024-10-31 03:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク