HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly

要約

長いコンテキスト言語モデル(LCLMS)を評価するために多くのベンチマークが存在しますが、開発者はしばしば、ヘイスタック(NIAH)やタスクの任意のサブセットなどの合成タスクに依存しています。
ただし、これらのベンチマークがLCLMの多様なダウンストリームアプリケーションを反映しているかどうかは不明のままであり、そのような矛盾によりモデルの比較がさらに複雑になります。
これらのプラクティスの背後にある根本的な理由を調査し、アプリケーションのカバレッジが限られているため、コンテキストの長さが不十分、信頼性の低いメトリック、およびベースモデルとの互換性があるため、既存のベンチマークが騒々しい信号を提供することが多いことを発見しました。
この作業では、7つの多様なアプリケーション中心のカテゴリを含む包括的なベンチマークであるヘルメット(長いコンテキストモデルを効果的かつ徹底的に評価する方法)を紹介します。
また、最大128Kトークンまでの制御可能な長さを追加し、信頼できるメトリックのモデルベースの評価、およびベースモデルを強く評価するための少数のショットプロンプトを追加することにより、以前のベンチマークでいくつかの問題に対処します。
その結果、ヘルメットがフロンティアLCLMのより信頼性が高く一貫したランキングを提供することを実証します。
59のLCLMの包括的な研究を通じて、(1)Niahのような合成タスクは、下流のパフォーマンスを確実に予測していないことがわかります。
(2)ヘルメットの多様なカテゴリは、互いに明確な傾向と低い相関関係を示します。
(3)ほとんどのLCLMは完全なNiahスコアを達成しますが、タスクが完全なコンテキスト推論または複雑な指示に従う必要がある場合、オープンソースモデルは閉じたモデルに大幅に遅れています。
最後に、ラグタスクを使用して高速モデル開発を使用することをお勧めします。それらは簡単に実行できるため、他のダウンストリームパフォーマンスをよりよく予測することができます。
最終的に、私たちは多様なタスク全体の全体的な評価を提唱します。

要約(オリジナル)

Many benchmarks exist for evaluating long-context language models (LCLMs), yet developers often rely on synthetic tasks such as needle-in-a-haystack (NIAH) or an arbitrary subset of tasks. However, it remains unclear whether these benchmarks reflect the diverse downstream applications of LCLMs, and such inconsistencies further complicate model comparison. We investigate the underlying reasons behind these practices and find that existing benchmarks often provide noisy signals due to limited coverage of applications, insufficient context lengths, unreliable metrics, and incompatibility with base models. In this work, we introduce HELMET (How to Evaluate Long-context Models Effectively and Thoroughly), a comprehensive benchmark encompassing seven diverse, application-centric categories. We also address several issues in previous benchmarks by adding controllable lengths up to 128K tokens, model-based evaluation for reliable metrics, and few-shot prompting for robustly evaluating base models. Consequently, we demonstrate that HELMET offers more reliable and consistent rankings of frontier LCLMs. Through a comprehensive study of 59 LCLMs, we find that (1) synthetic tasks like NIAH do not reliably predict downstream performance; (2) the diverse categories in HELMET exhibit distinct trends and low correlations with each other; and (3) while most LCLMs achieve perfect NIAH scores, open-source models significantly lag behind closed ones when tasks require full-context reasoning or following complex instructions — the gap widens as length increases. Finally, we recommend using our RAG tasks for fast model development, as they are easy to run and better predict other downstream performance; ultimately, we advocate for a holistic evaluation across diverse tasks.

arxiv情報

著者 Howard Yen,Tianyu Gao,Minmin Hou,Ke Ding,Daniel Fleischer,Peter Izsak,Moshe Wasserblat,Danqi Chen
発行日 2025-03-06 18:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク