Latte: Latent Attention for Linear Time Transformers

要約

トランスフォーマーにおける標準的な注意メカニズムの時間的複雑さは、シーケンスの長さに対して二次関数的に増加する。我々は注意の確率的枠組みを提案し、潜在変数モデルを定義することに基づいて、双方向の場合と因果的な場合の両方について、新しい低ランク線形再パラメータ化を導出することを可能にする。本手法は、標準的な注意メカニズムの置き換えとしてシームレスに統合することができる。さらに、このフレームワークは、局所的な標準注意と我々の大域的な線形注意を組み合わせるための自然な拡張を提供する。このアプローチにより、既存の大規模な事前学習済みモデルのコンテキスト長を、わずかな追加学習ステップで拡張することができる。結果として得られる“Latte Transformer”は、推論中の定時間次トークン予測とともに、線形な時間とメモリの複雑さを維持しながら、標準的な注意や他の最先端のモデルに匹敵する性能を達成する。

要約(オリジナル)

The time complexity of the standard attention mechanism in transformers scales quadratically with sequence length. We propose a probabilistic framework for attention, enabling us to derive a novel low-rank linear re-parameterisation of both bidirectional and causal cases, based on defining a latent variable model. Our method can be seamlessly integrated as a drop-in replacement for the standard attention mechanism. Additionally, this framework provides a natural extension for combining local standard attention with our global linear attention. This approach allows us to extend the context length of existing large pre-trained models with only a few additional training steps. The resulting “Latte Transformer” achieves performance comparable to standard attention and other state-of-the-art models, while maintaining linear time and memory complexity, along with constant-time next-token prediction during inference.

arxiv情報

著者 Rares Dolga,Lucas Maystre,Marius Cobzarenco,David Barber
発行日 2024-10-04 14:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, stat.ML パーマリンク