The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs

要約

まばらな注意は、変圧器LLMの長いコンテキスト機能を拡張するための有望な戦略を提供しますが、その実行可能性、その効率性の高いトレードオフ、および体系的なスケーリング研究は未開拓のままです。
このギャップに対処するために、さまざまなモデルスケール、シーケンスの長さ、およびスパースレベルで、トレーニングなしのスパースメソッドの慎重な比較を実行します。
実験に基づいて、一連の重要な調査結果を報告します。1)ISOFLOPS分析により、非常に長いシーケンスでは、より大きくて非常にスパースモデルがより小さく密集したモデルよりも好ましいことが明らかになります。
2)統計的に保証された精度の保存を保証しながら達成可能なスパース性のレベルは、デコード中に摂取よりも高く、前者のモデルサイズと相関します。
3)さまざまなシナリオに必要なスパースまたは予算の適応性の異なる単位を備えた、タスクやフェーズ全体で最適なパフォーマンスを発揮する明確な戦略はありません。
中程度のスパースレベルでさえ、少なくとも1つのタスクで大きなパフォーマンスの劣化をもたらすことが多く、まばらな注意は普遍的な解決策ではないことを強調しています。
4)まばらな注意のために特別に調整された新しいスケーリング法を導入および検証し、私たちの調査結果が私たちの実験の範囲を超えて真実である可能性が高いという証拠を提供します。
これらの洞察を通じて、まばらな注意が長いシーケンスを処理するためのトランスLLMの機能を強化する重要なツールであることを実証しますが、パフォーマンスに敏感なアプリケーションのトレードオフの慎重な評価が必要です。

要約(オリジナル)

Sparse attention offers a promising strategy to extend long-context capabilities in Transformer LLMs, yet its viability, its efficiency-accuracy trade-offs, and systematic scaling studies remain unexplored. To address this gap, we perform a careful comparison of training-free sparse attention methods at varying model scales, sequence lengths, and sparsity levels on a diverse collection of long-sequence tasks-including novel ones that rely on natural language while remaining controllable and easy to evaluate. Based on our experiments, we report a series of key findings: 1) an isoFLOPS analysis reveals that for very long sequences, larger and highly sparse models are preferable to smaller and dense ones. 2) The level of sparsity attainable while statistically guaranteeing accuracy preservation is higher during decoding than prefilling, and correlates with model size in the former. 3) There is no clear strategy that performs best across tasks and phases, with different units of sparsification or budget adaptivity needed for different scenarios. Even moderate sparsity levels often result in significant performance degradation on at least one task, highlighting that sparse attention is not a universal solution. 4) We introduce and validate novel scaling laws specifically tailored for sparse attention, providing evidence that our findings are likely to hold true beyond our range of experiments. Through these insights, we demonstrate that sparse attention is a key tool to enhance the capabilities of Transformer LLMs for processing longer sequences, but requires careful evaluation of trade-offs for performance-sensitive applications.

arxiv情報

著者 Piotr Nawrot,Robert Li,Renjie Huang,Sebastian Ruder,Kelly Marchisio,Edoardo M. Ponti
発行日 2025-04-24 17:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク