要約
大規模言語モデル (LLM) は、さまざまな言語タスクにおいて優れたパフォーマンスを発揮しますが、通常はコンテキスト ウィンドウ サイズ内でテキストを処理することに限定されます。
この制限により、高品質の長いシーケンスのベンチマークを使用して LLM の長いコンテキストの理解を強化するための重要な研究努力が促進されました。
ただし、この点で従来のデータセットには、最新の LLM のコンテキスト ウィンドウと比較してコンテキストの長さが短いなどの欠点がありました。
データ漏洩の問題がある古い文書。
そして、長い依存関係のタスクではなく、短い依存関係のタスクに重点を置きます。
このペーパーでは、LLM の長いコンテキストを理解するための長いコンテキストの汎用言語評価ベンチマークである LooGLE を紹介します。
LooGLE は、2022 年以降の比較的新しいドキュメントを特徴としており、ドキュメントごとに 24,000 を超えるトークンと、さまざまなドメインにまたがる 6,000 の新しく生成された質問を備えています。
ヒューマン アノテーターは、長い依存関係の要件を満たすために、1,100 を超える高品質な質問と回答のペアを細心の注意を払って作成しました。
これらのペアは徹底的な相互検証を受け、LLM の長い依存関係の機能を最も正確に評価できました。
LooGLE 上の 8 つの最先端 LLM の評価により、次の重要な結果が明らかになりました。(i) 商用モデルはオープンソース モデルよりも優れたパフォーマンスを発揮しました。
(ii) LLM は、短い質問応答やクローズ タスクなどの短い依存関係のタスクでは優れていましたが、より複雑で長い依存関係のタスクには苦労しました。
(iii) 状況に応じた学習と思考の連鎖は、わずかな改善しかもたらしませんでした。
(iv) 検索ベースの技術は、短い質問応答には大きな利点があることが実証されましたが、コンテキスト ウィンドウの長さを拡張する戦略は、長いコンテキストの理解には限定的な影響しかありませんでした。
そのため、LooGLE は、ロングコンテキスト LLM に関する体系的かつ包括的な評価スキーマを提供するだけでなく、「真のロングコンテキストの理解」に向けた強化されたモデルの将来の開発にも光を当てます。
要約(オリジナル)
Large language models (LLMs), despite their impressive performance in various language tasks, are typically limited to processing texts within context-window size. This limitation has spurred significant research efforts to enhance LLMs’ long-context understanding with high-quality long-sequence benchmarks. However, prior datasets in this regard suffer from shortcomings, such as short context length compared to the context window of modern LLMs; outdated documents that have data leakage problems; and an emphasis on short dependency tasks rather than long dependency tasks. In this paper, we present LooGLE, a Long Context Generic Language Evaluation benchmark for LLMs’ long context understanding. LooGLE features relatively new documents post-2022, with over 24,000 tokens per document and 6,000 newly generated questions spanning diverse domains. Human annotators meticulously crafted more than 1,100 high-quality question-answer pairs to meet the long dependency requirements. These pairs underwent thorough cross-validation, yielding the most precise assessment of LLMs’ long dependency capabilities. The evaluation of eight state-of-the-art LLMs on LooGLE revealed key findings: (i) commercial models outperformed open-sourced models; (ii) LLMs excelled in short dependency tasks like short question-answering and cloze tasks but struggled with more intricate long dependency tasks; (iii) in-context learning and chaining thoughts offered only marginal improvements; (iv) retrieval-based techniques demonstrated substantial benefits for short question-answering, while strategies for extending context window length had limited impact on long context understanding. As such, LooGLE not only provides a systematic and comprehensive evaluation schema on long-context LLMs, but also sheds light on future development of enhanced models towards ‘true long-context understanding’.
arxiv情報
| 著者 | Jiaqi Li,Mengmeng Wang,Zilong Zheng,Muhan Zhang |
| 発行日 | 2024-09-06 05:06:51+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google