XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies

要約

大規模言語モデル (LLM) は、さまざまなタスクにわたって優れたパフォーマンスを示していますが、コンテキスト ウィンドウ サイズが小さいため制約を受けます。
最大 200K の入力トークンにも対応できるようにコンテキスト ウィンドウを拡張するためのさまざまな取り組みが提案されています。
一方、包括的な評価を提供するために、はるかに長いテキストとより要求の厳しいタスクを備えた高品質のベンチマークを構築することは、LLM の長い文脈理解の研究を促進する上で非常に実用的です。
しかし、以前のベンチマークは、従来のタスクの入力を拡張することで、表面上は長文理解に対応するデータセットを作成しており、長い依存関係のあるタスクや最新の LLM のコンテキストと互換性のあるより長いテキスト長など、長文理解の独自の特性を示すには不十分です。
窓のサイズ。
このペーパーでは、広範囲の依存関係を伴う非常に長いコンテキストを理解するためのベンチマーク XL$^2$Bench を紹介します。これには、小説の読書、論文の読書、法律の読書という 3 つのシナリオと、より複雑になる 4 つのタスク (記憶の検索) が含まれています。
、詳細な理解、全体的な理解、オープンエンドの生成。英語と中国語で 27 のサブタスクをカバーします。
平均長は 10 万語以上 (英語)、20 万文字以上 (中国語) です。
XL$^2$Bench で 6 つの主要な LLM を評価したところ、それらのパフォーマンスは人間のレベルより大幅に遅れていることがわかりました。
さらに、元のデータセットと強化されたデータセットの両方で観察されたパフォーマンスの低下は、データ汚染を軽減するためのアプローチの有効性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance across diverse tasks but are constrained by their small context window sizes. Various efforts have been proposed to expand the context window to accommodate even up to 200K input tokens. Meanwhile, building high-quality benchmarks with much longer text lengths and more demanding tasks to provide comprehensive evaluations is of immense practical interest to facilitate long context understanding research of LLMs. However, prior benchmarks create datasets that ostensibly cater to long-text comprehension by expanding the input of traditional tasks, which falls short to exhibit the unique characteristics of long-text understanding, including long dependency tasks and longer text length compatible with modern LLMs’ context window size. In this paper, we introduce a benchmark for extremely long context understanding with long-range dependencies, XL$^2$Bench, which includes three scenarios: Fiction Reading, Paper Reading, and Law Reading, and four tasks of increasing complexity: Memory Retrieval, Detailed Understanding, Overall Understanding, and Open-ended Generation, covering 27 subtasks in English and Chinese. It has an average length of 100K+ words (English) and 200K+ characters (Chinese). Evaluating six leading LLMs on XL$^2$Bench, we find that their performance significantly lags behind human levels. Moreover, the observed decline in performance across both the original and enhanced datasets underscores the efficacy of our approach to mitigating data contamination.

arxiv情報

著者 Xuanfan Ni,Hengyi Cai,Xiaochi Wei,Shuaiqiang Wang,Dawei Yin,Piji Li
発行日 2024-04-08 12:29:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク