要約
ロングコンテクスト言語モデル(LCLM)を評価するためのベンチマークは数多く存在するが、開発者はしばしば、NIAH(needle-in-a-haystack)のような合成タスクやタスクの任意のサブセットに依存している。これらのタスクがLCLMの多様な下流アプリケーションに適用できるかどうかは依然として不明であり、矛盾がモデルの比較をさらに複雑にしている。我々は、現在の手法の背後にある根本的な理由を調査し、既存のベンチマークが、アプリケーションのカバレッジの低さ、不十分な長さ、信頼性の低いメトリクス、および基本モデルとの非互換性のために、しばしばノイズの多いシグナルを提供することを発見した。本研究では、7つの多様なアプリケーション中心のカテゴリを網羅する包括的なベンチマークであるHELMET(How to Evaluate Long-context Models Effectively and Thoroughly)を発表する。また、128kトークンまでの制御可能な長さの追加、信頼性の高いメトリクスのためのモデルベース評価、ベースモデルをロバストに評価するための少数ショットプロンプトの追加により、これまでのベンチマークの多くの問題に対処している。その結果、HELMETがフロンティアLCLMのより信頼性の高い一貫したランキングを提供することが実証された。51のLCLMの包括的な研究を通じて、我々は、(1)NIAHのような合成タスクは、ダウンストリームの性能の良い予測因子ではないこと、(2)HELMETの多様なカテゴリは、明確な傾向を示し、互いの相関は低いこと、(3)ほとんどのLCLMがNIAHの満点を達成する一方で、タスクがフルコンテキストの推論や複雑な指示に従うことを必要とする場合、オープンソースモデルはクローズドモデルに大きく遅れをとること(その差は、長さが長くなるにつれて拡大する)を発見した。最終的には、多様なタスクの総合的な評価を提唱する。
要約(オリジナル)
There have been many benchmarks for evaluating long-context language models (LCLMs), but developers often rely on synthetic tasks like needle-in-a-haystack (NIAH) or arbitrary subsets of tasks. It remains unclear whether they translate to the diverse downstream applications of LCLMs, and the inconsistency further complicates model comparison. We investigate the underlying reasons behind current practices and find that existing benchmarks often provide noisy signals due to low coverage of applications, insufficient lengths, unreliable metrics, and incompatibility with base models. In this work, we present HELMET (How to Evaluate Long-context Models Effectively and Thoroughly), a comprehensive benchmark encompassing seven diverse, application-centric categories. We also address many issues in previous benchmarks by adding controllable lengths up to 128k tokens, model-based evaluation for reliable metrics, and few-shot prompting for robustly evaluating base models. Consequently, we demonstrate that HELMET offers more reliable and consistent rankings of frontier LCLMs. Through a comprehensive study of 51 LCLMs, we find that (1) synthetic tasks like NIAH are not good predictors of downstream performance; (2) the diverse categories in HELMET exhibit distinct trends and low correlation with each other; and (3) while most LCLMs achieve perfect NIAH scores, open-source models significantly lag behind closed ones when the task requires full-context reasoning or following complex instructions — the gap widens with increased lengths. Finally, we recommend using our RAG tasks for fast model development, as they are easy to run and more predictive of other downstream performance; ultimately, we advocate for a holistic evaluation across diverse tasks.
arxiv情報
著者 | Howard Yen,Tianyu Gao,Minmin Hou,Ke Ding,Daniel Fleischer,Peter Izasak,Moshe Wasserblat,Danqi Chen |
発行日 | 2024-10-03 17:20:11+00:00 |
arxivサイト | arxiv_id(pdf) |