DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels

要約

大規模言語モデル (LLM) の急速な進歩に伴い、長いコンテキストの情報の理解と処理が学界や産業界で注目を集めています。
しかし、長いコンテキスト情報を処理する LLM の能力を評価するためのベンチマークは、LLM の開発に追いついていないようです。
さまざまなロングコンテキスト評価ベンチマークの出現にもかかわらず、評価される能力の種類は依然として限定されており、新しい能力の側面はありません。
このペーパーでは、平均コンテキスト長が 100,000 トークンを超える物語推論ベンチマークである DetectiveQA を紹介します。
DetectiveQA は、LLM の長い文脈の推論能力を評価することに焦点を当てています。これには、文脈を完全に理解する必要があるだけでなく、文脈から重要な証拠を抽出し、抽出された証拠に従って特定の質問に答えるために推論することも必要です。
これは能力評価の新しい次元であり、LLM の現在の知能レベルにより一致しています。
推理小説をデータソースとしていますが、当然様々な推理要素が含まれています。
最後に、600 の質問に手動で中国語で注釈を付け、コンテキスト情報と質問の英語版も提供しました。
私たちは、商用モデルやオープンソース モデルを含む、 DetectiveQA で多くのロング コンテキスト LLM を評価しました。その結果は、真のロング コンテキストの依存関係の質問を効果的に処理するには、既存のロング コンテキスト LLM が依然として大幅な進歩を必要とすることを示しています。

要約(オリジナル)

With the rapid advancement of Large Language Models (LLMs), long-context information understanding and processing have become a hot topic in academia and industry. However, benchmarks for evaluating the ability of LLMs to handle long-context information do not seem to have kept pace with the development of LLMs. Despite the emergence of various long-context evaluation benchmarks, the types of capability assessed are still limited, without new capability dimensions. In this paper, we introduce DetectiveQA, a narrative reasoning benchmark featured with an average context length of over 100K tokens. DetectiveQA focuses on evaluating the long-context reasoning ability of LLMs, which not only requires a full understanding of context but also requires extracting important evidences from the context and reasoning according to extracted evidences to answer the given questions. This is a new dimension of capability evaluation, which is more in line with the current intelligence level of LLMs. We use detective novels as data sources, which naturally have various reasoning elements. Finally, we manually annotated 600 questions in Chinese and then also provided an English edition of the context information and questions. We evaluate many long-context LLMs on DetectiveQA, including commercial and open-sourced models, and the results indicate that existing long-context LLMs still require significant advancements to effectively process true long-context dependency questions.

arxiv情報

著者 Zhe Xu,Jiasheng Ye,Xiangyang Liu,Tianxiang Sun,Xiaoran Liu,Qipeng Guo,Linlin Li,Qun Liu,Xuanjing Huang,Xipeng Qiu
発行日 2024-09-04 06:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク