要約
ロングコンテキスト言語モデル(LCLM)を評価するための既存のベンチマークは、主に長いコンテキストリコールに焦点を当てており、数千の無関係なトークンを処理しながら、いくつかの重要なスニペットに基づいて短い応答を生成する必要があります。
LongProc(Long Procedural Generation)を紹介します。これは、高度に分散した情報と長期生成の統合の両方を必要とする新しいベンチマークです。
LongProcは、HTMLページから構造化された情報をTSV形式に抽出し、複雑な検索手順を実行して旅行計画を作成するなど、6つの多様な手続き上の生成タスクで構成されています。
これらのタスクは、詳細な手続き上の命令に従い、分散した情報よりも合成および推論を行い、構造化された長型の出力(最大8Kトークン)を生成する能力をテストすることにより、LCLMSに挑戦します。
さらに、これらのタスクは決定論的手順に順守し、構造化された出力を生成するため、信頼できるルールベースの評価を可能にします。
3つの難易度レベルでLongProcで、命令チューニングモデルと最近の推論モデルを含む23のLCLMを評価しました。
特に、テストされたすべてのモデルは、32Kトークンを超えるコンテキストウィンドウサイズを主張していますが、通常、オープンウェイトモデルは2Kトークンタスクで動き、GPT-4Oのようなクローズドソースモデルは8Kトークンタスクで有意な分解を示します。
推論モデルは、長いコットのトレーニングの恩恵を受けて、長期の生成における全体的なパフォーマンスを強化します。
さらなる分析により、LCLMSは長期の世代の長距離一貫性を維持するのに苦労していることが明らかになりました。
これらの調査結果は、現在のLCLMSの重大な制限を強調し、改善の余地を示唆しています。
データとコードは、https://princeton-pli.github.io/longprocで利用可能です。
要約(オリジナル)
Existing benchmarks for evaluating long-context language models (LCLMs) primarily focus on long-context recall, requiring models to produce short responses based on a few critical snippets while processing thousands of irrelevant tokens. We introduce LongProc (Long Procedural Generation), a new benchmark that requires both the integration of highly dispersed information and long-form generation. LongProc consists of six diverse procedural generation tasks, such as extracting structured information from HTML pages into a TSV format and executing complex search procedures to create travel plans. These tasks challenge LCLMs by testing their ability to follow detailed procedural instructions, synthesize and reason over dispersed information, and generate structured, long-form outputs (up to 8K tokens). Furthermore, as these tasks adhere to deterministic procedures and yield structured outputs, they enable reliable rule-based evaluation. We evaluated 23 LCLMs, including instruction-tuned models and recent reasoning models, on LongProc at three difficulty levels, with the maximum number of output tokens set at 500, 2K, and 8K. Notably, while all tested models claim a context window size above 32K tokens, open-weight models typically falter on 2K-token tasks, and closed-source models like GPT-4o show significant degradation on 8K-token tasks. Reasoning models achieve stronger overall performance in long-form generation, benefiting from long CoT training. Further analysis reveals that LCLMs struggle to maintain long-range coherence in long-form generations. These findings highlight critical limitations in current LCLMs and suggest substantial room for improvement. Data and code available at: https://princeton-pli.github.io/LongProc.
arxiv情報
著者 | Xi Ye,Fangcong Yin,Yinghui He,Joie Zhang,Howard Yen,Tianyu Gao,Greg Durrett,Danqi Chen |
発行日 | 2025-04-21 13:50:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google