要約
長いコンテキスト情報を処理する大規模な言語モデルの機能は、さまざまな現実世界のアプリケーションにわたって重要です。
既存の評価方法は、多くの場合、実際の長いテキストに依存しているため、モデルの固有の知識の影響を排除することを困難にしたり、ターゲットの長さを人為的に達成するための無関係なフィラーコンテンツを導入して評価の有効性を低減したりします。
これらの制限に対処するために、適応性のあるコンテキストの長さを持つバイリンガルの長いコンテキストタスクの検索と推論パフォーマンスを評価するための合成フレームワークであるニードルベンチを紹介します。
Needlebenchは、さまざまな深さでキーデータポイントを体系的に組み込み、モデル機能を厳密にテストするために埋め込みます。
タスクは2つのシナリオに分類されます。情報スパース。単純な検索タスクをシミュレートするための広範な無関係なテキスト内の最小限の関連性を特徴とします。
情報密度(先祖のトレースチャレンジ)。関連する情報がコンテキスト全体に継続的に配布され、複雑な推論タスクをシミュレートします。
私たちの実験では、DeepSeek-R1やOpenaiのO3などの最近の推論モデルが数学的推論において優れていますが、コンテキストの長さが短い場合でも、情報密度の高いシナリオでの継続的な検索と推論に苦労していることが明らかになりました。
また、「思考下」と呼ばれる現象を特徴づけます。ここでは、利用可能な情報にもかかわらず、モデルは前提条件を前提としています。
したがって、ニードルベンチは、LLMSのロングコンテキスト機能を評価および改善するために不可欠な重要な洞察とターゲットツールを提供します。
すべてのリソースは、OpenCompass:https://github.com/open-compass/opencompassで入手できます。
要約(オリジナル)
The capability of large language models to handle long-context information is crucial across various real-world applications. Existing evaluation methods often rely either on real-world long texts, making it difficult to exclude the influence of models’ inherent knowledge, or introduce irrelevant filler content to artificially achieve target lengths, reducing assessment effectiveness. To address these limitations, we introduce NeedleBench, a synthetic framework for assessing retrieval and reasoning performance in bilingual long-context tasks with adaptive context lengths. NeedleBench systematically embeds key data points at varying depths to rigorously test model capabilities. Tasks are categorized into two scenarios: information-sparse, featuring minimal relevant details within extensive irrelevant text to simulate simple retrieval tasks; and information-dense (the Ancestral Trace Challenge), where relevant information is continuously distributed throughout the context to simulate complex reasoning tasks. Our experiments reveal that although recent reasoning models like Deepseek-R1 and OpenAI’s o3 excel in mathematical reasoning, they struggle with continuous retrieval and reasoning in information-dense scenarios, even at shorter context lengths. We also characterize a phenomenon termed ‘under-thinking’, where models prematurely conclude reasoning despite available information. NeedleBench thus provides critical insights and targeted tools essential for evaluating and improving LLMs’ long-context capabilities. All resources are available at OpenCompass: https://github.com/open-compass/opencompass.
arxiv情報
著者 | Mo Li,Songyang Zhang,Taolin Zhang,Haodong Duan,Yunxin Liu,Kai Chen |
発行日 | 2025-05-09 09:23:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google