要約
検索拡張生成 (RAG) は、大規模言語モデル (LLM) における固定知識の制限に対処するための有望なアプローチです。
しかし、RAG システムを評価するための現在のベンチマークには 2 つの重要な欠陥があります。(1) 取得された文書の特性を反映するデータセットが不足しているため、\emph{長いコンテキストの取得} を処理する LLM の能力を適切に測定できません。
(2) 取得した情報を効果的に活用する \emph{長い形式の応答} を生成する LLM の能力を評価するための包括的な評価方法が欠けています。
これらの欠点に対処するために、\textsc{Long$^2$RAG} ベンチマークと Key Point Recall (\textit{KPR}) メトリクスを導入します。
\textsc{Long$^2$RAG} は、10 のドメインと 8 つの質問カテゴリにまたがる 280 の質問で構成され、それぞれが平均長 2,444 ワードの 5 つの取得されたドキュメントに関連付けられています。
\textit{KPR} は、LLM が取得した文書から抽出したキーポイントを生成された応答にどの程度組み込んでいるかを評価し、取得した情報を悪用する能力についてのより微妙な評価を提供します。
データセットとスクリプトは https://github.com/QZH-777/longrag で入手できます。
要約(オリジナル)
Retrieval-augmented generation (RAG) is a promising approach to address the limitations of fixed knowledge in large language models (LLMs). However, current benchmarks for evaluating RAG systems suffer from two key deficiencies: (1) they fail to adequately measure LLMs’ capability in handling \emph{long-context retrieval} due to a lack of datasets that reflect the characteristics of retrieved documents, and (2) they lack a comprehensive evaluation method for assessing LLMs’ ability to generate \emph{long-form responses} that effectively exploits retrieved information. To address these shortcomings, we introduce the \textsc{Long$^2$RAG} benchmark and the Key Point Recall (\textit{KPR}) metric. \textsc{Long$^2$RAG} comprises 280 questions spanning 10 domains and across 8 question categories, each associated with 5 retrieved documents with an average length of 2,444 words. \textit{KPR} evaluates the extent to which LLMs incorporate key points extracted from the retrieved documents into their generated responses, providing a more nuanced assessment of their ability to exploit retrieved information. Our dataset and scripts are available at https://github.com/QZH-777/longrag.
arxiv情報
著者 | Zehan Qi,Rongwu Xu,Zhijiang Guo,Cunxiang Wang,Hao Zhang,Wei Xu |
発行日 | 2024-10-30 13:29:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google