M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models

要約

長いシーケンスの管理は、大規模言語モデル (LLM) にとって重要かつ必要な機能になっています。
ただし、LLM の長距離シーケンス能力を包括的かつ体系的に評価する方法については、依然として未解決の問題です。
その理由の 1 つは、従来の広く使用されているベンチマークが主に短いシーケンスで構成されていることです。
この論文では、ロングコンテキスト評価のためのマルチアビリティ、マルチレンジ、マルチタスク、マルチドメインベンチマークである M4LE を提案します。
M4LE は、36 の NLP データセット、11 のタスク タイプ、12 のドメインで構成される多様な NLP タスク プールに基づいています。
自然に長いシーケンスを持つタスクの不足を緩和し、複数の能力評価を組み込むために、短いシーケンスのタスクを、LLM が単一または複数のタスクを識別する必要がある統合された長いシーケンスのシナリオに変換する自動アプローチ (ただし、人間による注釈は無視できる) を提案します。
明示的または意味論的なヒントに基づいて、長いコンテキスト内の関連するスパンを表示します。
具体的には、シナリオには 5 つの異なるタイプの能力が含まれています。(1) 明示的なシングルスパン。
(2) セマンティックなシングルスパン。
(3) 明示的なマルチスパン。
(4) セマンティックマルチスパン。
(5) グローバルな文脈の理解。
M4LE での結果のサンプルは、1k から 8k の入力長に均等に分散されます。
私たちは、11 の確立された LLM、特に長いシーケンスの入力に最適化された LLM について体系的な評価を実施しました。
私たちの結果は次のことを明らかにしました: 1) 現在の LLM は、特にタスクが複数のスパンの注意を必要とする場合に、長いコンテキストを理解するのに苦労しています。
2) 有能な LLM にとって、意味検索タスクはより困難です。
3) 位置補間を使用して長いテキストに対して微調整されたモデルは、微調整を行わずにニューラル タンジェント カーネル (NTK) 対応のスケーリング手法を使用したモデルと同等のパフォーマンスを示します。
この困難な分野での将来の研究を促進するために、私たちはベンチマークを公開します。

要約(オリジナル)

Managing long sequences has become an important and necessary feature for large language models (LLMs). However, it is still an open question of how to comprehensively and systematically evaluate the long-sequence capability of LLMs. One of the reasons is that conventional and widely-used benchmarks mainly consist of short sequences. In this paper, we propose M4LE, a Multi-ability, Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation. M4LE is based on a diverse NLP task pool comprising 36 NLP datasets, 11 task types and 12 domains. To alleviate the scarcity of tasks with naturally long sequences and incorporate multiple-ability assessment, we propose an automatic approach (but with negligible human annotations) to convert short-sequence tasks into a unified long-sequence scenario where LLMs have to identify single or multiple relevant spans in long contexts based on explicit or semantic hints. Specifically, the scenario includes five different types of abilities: (1) explicit single-span; (2) semantic single-span; (3) explicit multiple-span; (4) semantic multiple-span; and (5) global context understanding. The resulting samples in M4LE are evenly distributed from 1k to 8k input length. We conducted a systematic evaluation on 11 well-established LLMs, especially those optimized for long-sequence inputs. Our results reveal that: 1) Current LLMs struggle to understand long context, particularly when tasks require multiple-span attention. 2) Semantic retrieval task is more difficult for competent LLMs. 3) Models fine-tuned on longer text with position interpolation have comparable performance to those using Neural Tangent Kernel (NTK) aware scaling methods without fine-tuning. We make our benchmark publicly available to encourage future research in this challenging area.

arxiv情報

著者 Wai-Chung Kwan,Xingshan Zeng,Yufei Wang,Yusen Sun,Liangyou Li,Lifeng Shang,Qun Liu,Kam-Fai Wong
発行日 2023-10-30 03:11:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク