Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation

要約

言語モデル (LM) は、長いコンテキスト情報を処理する能力の向上を実証していますが、既存の長いコンテキストのベンチマークは主に、拡張入力による LM の検索能力 (長文テキストから短いフレーズを正確に特定するなど) を測定しています。
したがって、応答を生成するための入力全体のコンテンツの合成や推論など、モデルのグローバル コンテキスト理解能力を評価する際に不十分になる可能性があります。
この論文では、マルチショットのインコンテキスト学習 (ICL) によるロングコンテキスト言語モデル (LCLM) の評価を研究します。
具体的には、各 ICL タスクに必要なスキルを特定し、それらに対するモデルのロングコンテキスト機能を検査します。
まず最初に尋ねます。どのタイプの ICL タスクが追加のデモンストレーションから恩恵を受けるのか、またこれらのタスクは LCLM の評価に効果的ですか?
分類と要約のタスクは、デモンストレーションを追加することで顕著なパフォーマンスの向上を示しますが、翻訳と推論のタスクは明確な傾向を示さないことがわかりました。
これは、分類タスクが主にモデルの検索スキルをテストすることを示唆しています。
次に、各タスクには、LCLM からのグローバル コンテキストの理解と比較して、どの程度の検索スキルが必要ですか?
私たちは、ICL タスクを 2 つのグループに分類するための指標を開発します。(i) 関連する例を正確に特定するための強力な検索能力を必要とする検索タスク、および (ii) 入力全体のより深い理解を必要とするグローバル コンテキスト理解タスク。
すべてのデータセットがこれらのロングコンテキスト機能を効果的に評価できるわけではないことがわかりました。
このギャップに対処するために、LCLM の検索機能とグローバル コンテキスト理解機能を個別に特徴付けるように設計された新しいマルチショット ICL ベンチマーク MANYICLBENCH を導入します。
MANYICLBENCH を使用して 11 個のオープンウェイト LCLM をベンチマークしたところ、最先端のモデルは最大 64,000 トークンの取得タスクでは良好なパフォーマンスを発揮しますが、多くのモデルではわずか 16,000 トークンでグローバル コンテキスト タスクが大幅に低下することがわかりました。

要約(オリジナル)

Language models (LMs) have demonstrated an improved capacity to handle long-context information, yet existing long-context benchmarks primarily measure LMs’ retrieval abilities with extended inputs, e.g., pinpointing a short phrase from long-form text. Therefore, they may fall short when evaluating models’ global context understanding capacity, such as synthesizing and reasoning over content across input to generate the response. In this paper, we study long-context language model (LCLM) evaluation through many-shot in-context learning (ICL). Concretely, we identify the skills each ICL task requires, and examine models’ long-context capabilities on them. We first ask: What types of ICL tasks benefit from additional demonstrations, and are these tasks effective at evaluating LCLMs? We find that classification and summarization tasks show notable performance improvements with additional demonstrations, while translation and reasoning tasks do not exhibit clear trends. This suggests the classification tasks predominantly test models’ retrieval skills. Next, we ask: To what extent does each task require retrieval skills versus global context understanding from LCLMs? We develop metrics to categorize ICL tasks into two groups: (i) retrieval tasks that require strong retrieval ability to pinpoint relevant examples, and (ii) global context understanding tasks that necessitate a deeper comprehension of the full input. We find that not all datasets can effectively evaluate these long-context capabilities. To address this gap, we introduce a new many-shot ICL benchmark, MANYICLBENCH, designed to characterize LCLMs’ retrieval and global context understanding capabilities separately. Benchmarking 11 open-weight LCLMs with MANYICLBENCH, we find that while state-of-the-art models perform well in retrieval tasks up to 64k tokens, many show significant drops in global context tasks at just 16k tokens.

arxiv情報

著者 Kaijian Zou,Muhammad Khalifa,Lu Wang
発行日 2024-11-11 17:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク