要約
トランスフォーマー モデルの VRAM 要件は、セルフ アテンション メカニズムにより、コンテキストの長さに応じて二次的に増加します。
この論文では、デコーダのみのトランスフォーマを変更し、セルフ アテンションを Intention に置き換えます。これは、トークンを初期状態のみにアテンションさせることで、推論中にコンテキストの長さに線形にスケールします。
ベンチマークでは、Intention が推論中の VRAM 使用量を大幅に削減し、コンシューマー GPU での長いシーケンスの処理を可能にすることが示されています。
微調整によりコンテキストの長さが効率的に拡張され、高いトレーニング コストをかけずに長いシーケンスのパフォーマンスが向上することが確認されました。
Intention は、変圧器モデルの長距離依存関係に対するスケーラブルなソリューションを提供し、さらなる最適化への道を開きます。
要約(オリジナル)
VRAM requirements for transformer models scale quadratically with context length due to the self-attention mechanism. In this paper we modify the decoder-only transformer, replacing self-attention with InAttention, which scales linearly with context length during inference by having tokens attend only to initial states. Benchmarking shows that InAttention significantly reduces VRAM usage during inference, enabling handling of long sequences on consumer GPUs. We corroborate that fine-tuning extends context length efficiently, improving performance on long sequences without high training costs. InAttention offers a scalable solution for long-range dependencies in transformer models, paving the way for further optimization.
arxiv情報
著者 | Joseph Eisner |
発行日 | 2024-10-09 17:05:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google