Radar: Fast Long-Context Decoding for Any Transformer

要約

トランスモデルは、幅広いアプリケーションで並外れたパフォーマンスを実証しています。
変圧器モデルの基礎を形成しますが、DOT製品の注意は、その時間要件がコンテキストの長さとともに2次に成長するため、長いコンテキストデータにうまく拡張しません。
この作業では、最も重要なコンテキストトークンを動的に検索することで推論を加速するトレーニングなしのアプローチであるレーダーを提案します。
事前に訓練された変圧器の場合、レーダーはトレーニングやヒューリスティックなトークンを追跡することなく、デコード時間の複雑さを減らすことができます。
さらに、私たちはアプローチの理論的正当化を提供し、レーダーが高い確率で最も重要なトークンを確実に識別できることを実証します。
幅広いタスクで以前の方法と大規模な比較を実施します。
結果は、レーダーが時間が短縮されたさまざまなアーキテクチャで最先端のパフォーマンスを達成し、変圧器の効率的な長いコンテキスト処理のための実用的なソリューションを提供することを示しています。

要約(オリジナル)

Transformer models have demonstrated exceptional performance across a wide range of applications. Though forming the foundation of Transformer models, the dot-product attention does not scale well to long-context data since its time requirement grows quadratically with context length. In this work, we propose Radar, a training-free approach that accelerates inference by dynamically searching for the most important context tokens. For any pre-trained Transformer, Radar can reduce the decoding time complexity without training or heuristically evicting tokens. Moreover, we provide theoretical justification for our approach, demonstrating that Radar can reliably identify the most important tokens with high probability. We conduct extensive comparisons with the previous methods on a wide range of tasks. The results demonstrate that Radar achieves the state-of-the-art performance across different architectures with reduced time complexity, offering a practical solution for efficient long-context processing of Transformers.

arxiv情報

著者 Yongchang Hao,Mengyao Zhai,Hossein Hajimirsadeghi,Sepidehsadat Hosseini,Frederick Tung
発行日 2025-03-13 17:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク