要約
大規模な言語モデル(LLM)は、ヘイスタックの針タスクで大きな課題に直面しています。関連する情報(「針」)は、無関係なコンテキスト(「ヘイスタック」)の大きなプールから引き出されなければなりません。
以前の研究では、モデルのパフォーマンスに影響を与える重要な要因としての位置バイアスとディストラクタの量を強調していますが、金のコンテキストサイズの影響はほとんど注目されていません。
ゴールドコンテキストの長さの変動がLLMパフォーマンスに長いコンテキスト質問にどのように影響するかを体系的に研究することにより、このギャップに対処します。
私たちの実験では、金のコンテキストが短い場合、つまり、より小さな金のコンテキストがモデルのパフォーマンスを一貫して分解し、位置感度を増幅すると、LLMのパフォーマンスが急激に低下することが明らかになり、さまざまな長さの散在した微細な情報を統合しなければならないエージェントシステムに大きな課題をもたらします。
このパターンは、3つの多様なドメイン(一般的な知識、生物医学的推論、数学的推論)と、さまざまなサイズとアーキテクチャの7つの最先端のLLMにまたがります。
私たちの作品は、堅牢でコンテキスト認識したLLM駆動型システムの設計を導くための明確な洞察を提供します。
要約(オリジナル)
Large language models (LLMs) face significant challenges with needle-in-a-haystack tasks, where relevant information (‘the needle’) must be drawn from a large pool of irrelevant context (‘the haystack’). Previous studies have highlighted positional bias and distractor quantity as critical factors affecting model performance, yet the influence of gold context size has received little attention. We address this gap by systematically studying how variations in gold context length impact LLM performance on long-context question answering tasks. Our experiments reveal that LLM performance drops sharply when the gold context is shorter, i.e., smaller gold contexts consistently degrade model performance and amplify positional sensitivity, posing a major challenge for agentic systems that must integrate scattered, fine-grained information of varying lengths. This pattern holds across three diverse domains (general knowledge, biomedical reasoning, and mathematical reasoning) and seven state-of-the-art LLMs of various sizes and architectures. Our work provides clear insights to guide the design of robust, context-aware LLM-driven systems.
arxiv情報
著者 | Owen Bianchi,Mathew J. Koretsky,Maya Willey,Chelsea X. Alvarado,Tanay Nayak,Adi Asija,Nicole Kuznetsov,Mike A. Nalls,Faraz Faghri,Daniel Khashabi |
発行日 | 2025-05-23 17:57:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google