Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack

要約

ロングコンテキスト言語モデル (LM) に、インコンテキスト学習 (ICL) を通じて一連の言語タスクから学習させる問題設定である Lifelong ICL を紹介します。
さらに、ロングコンテキスト LM が Lifelong ICL でコンテキストをどのように利用するかを評価および診断することに特化した評価スイートである Task Haystack を紹介します。
タスクの指示とテスト入力が与えられた場合、ロングコンテキストの LM は、生涯 ICL プロンプト内の関連するデモンストレーションを活用し、他のタスクからの注意散漫や干渉を回避し、単一タスク ICL ベースラインより大幅に劣らないテスト精度を達成することが期待されます。

タスク Haystack は、広く採用されている「干し草の中の針」(NIAH) 評価からインスピレーションを得ていますが、新しくてユニークな課題が存在します。
それは、モデルが (1) 単純なコピー アンド ペーストに頼るのではなく、より深い理解を持ってコンテキストを利用することを要求します。
(2) 進化するトピックとタスクの長いストリームをナビゲートします。これは、長いコンテキストの LM の実世界での使用法の複雑さに非常に似ています。
さらに、Task Haystack は NIAH の制御性の側面を継承し、モデルの脆弱性を効果的に特定するためのツールと視覚化をモデル開発者に提供します。
Task Haystack を使用して 12 個のロングコンテキスト LM のベンチマークを行います。
GPT-4o などの最先端のクローズド モデルは依然としてこの設定で苦戦しており、平均して 15% のケースで失敗しますが、評価したすべてのオープンウェイト モデルはさらに大幅な差をつけられて失敗していることがわかりました。
ケースの 61% に達します。
当社の管理された分析では、これらの失敗例の原因として、注意散漫や最新性バイアスなどの要因が特定されます。
さらに、テスト時にタスク命令が言い換えられたり、ICL デモンストレーションが過度に繰り返されたりすると、パフォーマンスの低下が観察され、現在のロングコンテキスト LM の堅牢性、命令の理解、および真のコンテキストの利用に関する懸念が生じます。

要約(オリジナル)

We introduce Lifelong ICL, a problem setting that challenges long-context language models (LMs) to learn from a sequence of language tasks through in-context learning (ICL). We further introduce Task Haystack, an evaluation suite dedicated to assessing and diagnosing how long-context LMs utilizes contexts in Lifelong ICL. When given a task instruction and test inputs, long-context LMs are expected to leverage the relevant demonstrations in the Lifelong ICL prompt, avoid distraction and interference from other tasks, and achieve test accuracies that are not significantly worse than the Single-task ICL baseline. Task Haystack draws inspiration from the widely-adopted ‘needle-in-a-haystack’ (NIAH) evaluation, but presents new and unique challenges. It demands that models (1) utilize the contexts with deeper understanding, rather than resorting to simple copying and pasting; (2) navigate through long streams of evolving topics and tasks, which closely approximates the complexities of real-world usage of long-context LMs. Additionally, Task Haystack inherits the controllability aspect of NIAH, providing model developers with tools and visualizations to identify model vulnerabilities effectively. We benchmark 12 long-context LMs using Task Haystack. We find that state-of-the-art closed models such as GPT-4o still struggle in this setting, failing 15% of the cases on average, while all open-weight models we evaluate further lack behind by a large margin, failing up to 61% of the cases. In our controlled analysis, we identify factors such as distraction and recency bias as contributors to these failure cases. Further, we observe declines in performance when task instructions are paraphrased at test time or when ICL demonstrations are repeated excessively, raising concerns about the robustness, instruction understanding, and true context utilization of current long-context LMs.

arxiv情報

著者 Xiaoyue Xu,Qinyuan Ye,Xiang Ren
発行日 2024-07-23 17:57:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク