LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

要約

大規模言語モデル (LLM) は多くの言語タスクに対して優れたパフォーマンスを示しますが、そのほとんどは数千トークンの長さのテキストしか処理できないため、書籍、レポート、コードベースなどの長いシーケンス入力に対するアプリケーションが制限されます。
最近の研究では、コンテキスト ウィンドウとより洗練されたメモリ メカニズムを拡張することにより、LLM のロング コンテキスト機能を向上させる方法が提案されています。
しかし、長い文脈の理解を評価するために調整された包括的なベンチマークは不足しています。
このペーパーでは、長いコンテキストの理解のための初のバイリンガル マルチタスク ベンチマークである LongBench を紹介します。これにより、長いコンテキストの理解のより厳密な評価が可能になります。
LongBench は、英語と中国語の両方で 6 つのタスク カテゴリにわたる 21 のデータセットで構成されており、平均長は 6,711 ワード (英語)、13,386 文字 (中国語) です。
これらのタスクは、単一ドキュメント QA、複数ドキュメント QA、要約、少数ショット学習、合成タスク、コード補完などの主要な長文アプリケーション領域をカバーします。
LongBench のすべてのデータセットは統一フォーマットに標準化されているため、LLM の自動評価が簡単に行えます。
LongBench で 8 つの LLM を包括的に評価したところ、次のことがわかりました。 (1) 商用モデル (GPT-3.5-Turbo-16k) は他のオープンソース モデルよりも優れていますが、より長いコンテキストではまだ苦戦しています。
(2) スケールされた位置の埋め込みと長いシーケンスの微調整により、長いコンテキストの理解が大幅に向上します。
(3) 検索などのコンテキスト圧縮技術は、長いコンテキストに対する能力が弱いモデルに改善をもたらしますが、その性能は依然として長いコンテキストの理解能力が強いモデルに劣ります。
コードとデータセットは https://github.com/THUDM/LongBench で入手できます。

要約(オリジナル)

Although large language models (LLMs) demonstrate impressive performance for many language tasks, most of them can only handle texts a few thousand tokens long, limiting their applications on longer sequence inputs, such as books, reports, and codebases. Recent works have proposed methods to improve LLMs’ long context capabilities by extending context windows and more sophisticated memory mechanisms. However, comprehensive benchmarks tailored for evaluating long context understanding are lacking. In this paper, we introduce LongBench, the first bilingual, multi-task benchmark for long context understanding, enabling a more rigorous evaluation of long context understanding. LongBench comprises 21 datasets across 6 task categories in both English and Chinese, with an average length of 6,711 words (English) and 13,386 characters (Chinese). These tasks cover key long-text application areas including single-doc QA, multi-doc QA, summarization, few-shot learning, synthetic tasks, and code completion. All datasets in LongBench are standardized into a unified format, allowing for effortless automatic evaluation of LLMs. Upon comprehensive evaluation of 8 LLMs on LongBench, we find that: (1) Commercial model (GPT-3.5-Turbo-16k) outperforms other open-sourced models, but still struggles on longer contexts. (2) Scaled position embedding and fine-tuning on longer sequences lead to substantial improvement on long context understanding. (3) Context compression technique such as retrieval brings improvement for model with weak ability on long contexts, but the performance still lags behind models that have strong long context understanding capability. The code and datasets are available at https://github.com/THUDM/LongBench.

arxiv情報

著者 Yushi Bai,Xin Lv,Jiajie Zhang,Hongchang Lyu,Jiankai Tang,Zhidian Huang,Zhengxiao Du,Xiao Liu,Aohan Zeng,Lei Hou,Yuxiao Dong,Jie Tang,Juanzi Li
発行日 2023-08-28 11:53:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク