Long-context LLMs Struggle with Long In-context Learning

要約

大規模言語モデル (LLM) は、32,000 トークンを超える長いシーケンスの処理において大幅な進歩を遂げました。
ただし、彼らのパフォーマンス評価は主に、複雑さや合成タスクなどの指標に限定されており、より微妙な現実世界のシナリオでは、彼らの能力を完全には捉えていない可能性があります。
この研究では、極端なラベル分類の領域内での長時間のコンテキスト内学習に焦点を当てた特殊なベンチマーク (LIConBench) を導入します。
2K から 50K までのさまざまな入力 (少数ショットのデモンストレーション) 長さをカバーする 28 から 174 クラスにわたるラベル範囲を持つ 6 つのデータセットを注意深く選択しました。
私たちのベンチマークでは、正しい予測を行うために、LLM が入力全体を理解して大規模なラベル空間を認識する必要があります。
私たちはベンチマークで 13 個のロングコンテキスト LLM を評価しました。
ロングコンテキスト LLM は 20K のトークン長以下で比較的良好にパフォーマンスを示し、長いコンテキスト ウィンドウを利用することでパフォーマンスが向上することがわかりました。
ただし、コンテキスト ウィンドウが 20K を超えると、GPT-4 を除くほとんどの LLM は大幅に低下します。
これは、長くコンテキストが豊富なシーケンスを処理および理解するための現在の LLM 機能に顕著なギャップがあることを示唆しています。
さらなる分析により、モデル間のシーケンスの終わりに向かって提示されるラベルの予測が好まれる傾向があることが明らかになりました。
長いシーケンスの複数の部分を推論する能力はまだ改善されていません。
私たちの研究では、既存の LLM にとって、長い文脈の理解と推論が依然として困難な課題であることが明らかになりました。
私たちは、LIConBench が将来のロングコンテキスト LLM のより現実的な評価として役立つ可能性があると信じています。

要約(オリジナル)

Large Language Models (LLMs) have made significant strides in handling long sequences exceeding 32K tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their abilities in more nuanced, real-world scenarios. This study introduces a specialized benchmark (LIConBench) focusing on long in-context learning within the realm of extreme-label classification. We meticulously selected six datasets with a label range spanning 28 to 174 classes covering different input (few-shot demonstration) length from 2K to 50K. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct prediction. We evaluate 13 long-context LLMs on our benchmarks. We find that the long-context LLMs perform relatively well under the token length of 20K and the performance benefits from utilizing the long context window. However, after the context window exceeds 20K, most LLMs except GPT-4 will dip dramatically. This suggests a notable gap in current LLM capabilities for processing and understanding long, context-rich sequences. Further analysis revealed a tendency among models to favor predictions for labels presented towards the end at the sequence. Their ability to reason over multiple pieces in the long sequence is yet to be improved. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LIConBench could serve as a more realistic evaluation for the future long context LLMs.

arxiv情報

著者 Tianle Li,Ge Zhang,Quy Duc Do,Xiang Yue,Wenhu Chen
発行日 2024-04-02 15:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク