Overflow Prevention Enhances Long-Context Recurrent LLMs

要約

LLMSの最近の傾向は、長いコンテキスト処理効率を改善する再発性亜科モデルを開発しています。
私たちは、固定サイズの再発メモリがパフォーマンスにどのように影響するかに焦点を当てて、主要な大規模な長いコンテキストモデルを調査します。
私たちの実験では、これらのモデルが拡張されたコンテキストのために訓練されている場合でも、長いコンテキストの使用は十分に活用されていないことが明らかになりました。
具体的には、入力の最も関連性の高い部分のみを識別および処理するチャンクベースの推論手順が再発メモリの障害を軽減し、多くの長いコンテストタスクに効果的であることを実証します。
RWKV6-FINCH-7Bは51%です。
驚くべきことに、この単純なアプローチは、挑戦的なロングベンチV2ベンチマークに最先端の結果につながり、同等のサイズの変圧器で競争力のあるパフォーマンスを示しています。
さらに、私たちの調査結果は、単一チャンク戦略がより強力なパフォーマンスを提供するため、おそらくクロスコンテキスト関係を必要とするタスクであっても、再発モデルが長距離依存を本当に活用するかどうかについて疑問を投げかけています。

要約(オリジナル)

A recent trend in LLMs is developing recurrent sub-quadratic models that improve long-context processing efficiency. We investigate leading large long-context models, focusing on how their fixed-size recurrent memory affects their performance. Our experiments reveal that, even when these models are trained for extended contexts, their use of long contexts remains underutilized. Specifically, we demonstrate that a chunk-based inference procedure, which identifies and processes only the most relevant portion of the input can mitigate recurrent memory failures and be effective for many long-context tasks: On LongBench, our method improves the overall performance of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%, RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this simple approach also leads to state-of-the-art results in the challenging LongBench v2 benchmark, showing competitive performance with equivalent size Transformers. Furthermore, our findings raise questions about whether recurrent models genuinely exploit long-range dependencies, as our single-chunk strategy delivers stronger performance – even in tasks that presumably require cross-context relations.

arxiv情報

著者 Assaf Ben-Kish,Itamar Zimerman,M. Jehanzeb Mirza,James Glass,Leonid Karlinsky,Raja Giryes
発行日 2025-05-12 17:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク