SCALAR: Scientific Citation-based Live Assessment of Long-context Academic Reasoning

要約

大規模な言語モデルの評価(LLMS)の長いコンテキスト理解機能は依然として困難です。
学術論文とその引用ネットワークを活用する新しいベンチマークであるScalar(科学的引用ベースのライブ評価)を紹介します。
スカラーは、人間の注釈、制御可能な難易度、およびデータ汚染を防ぐ動的な更新メカニズムのない高品質のグラウンドトゥルースラベルの自動生成を特徴としています。
ICLR 2025ペーパーを使用して、8つの最先端のLLMを評価し、さまざまなコンテキストの長さと推論タイプにわたって長い科学文書を処理する能力と制限に関する重要な洞察を明らかにします。
当社のベンチマークは、LLM機能が進化するにつれて、長いコンテキストの理解における進歩を追跡するための信頼できる持続可能な方法を提供します。

要約(オリジナル)

Evaluating large language models’ (LLMs) long-context understanding capabilities remains challenging. We present SCALAR (Scientific Citation-based Live Assessment of Long-context Academic Reasoning), a novel benchmark that leverages academic papers and their citation networks. SCALAR features automatic generation of high-quality ground truth labels without human annotation, controllable difficulty levels, and a dynamic updating mechanism that prevents data contamination. Using ICLR 2025 papers, we evaluate 8 state-of-the-art LLMs, revealing key insights about their capabilities and limitations in processing long scientific documents across different context lengths and reasoning types. Our benchmark provides a reliable and sustainable way to track progress in long-context understanding as LLM capabilities evolve.

arxiv情報

著者 Renxi Wang,Honglin Mu,Liqun Ma,Lizhi Lin,Yunlong Feng,Timothy Baldwin,Xudong Han,Haonan Li
発行日 2025-02-19 14:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク