要約
トランスフォーマーは、その構想以来、NLP、画像分類、ビデオ/オーディオ処理などの多くのタスクで、高速なトレーニングと優れたパフォーマンスのために、従来のシーケンス モデルを引き継いでいます。
メリットの多くは、位置エンコーディングとマルチヘッド アテンションによるものです。
ただし、トランスフォーマーは、主に時間と空間の両方の観点から、コンテキストの長さでスケーリングされる二次的な複雑さのために、長期的な依存関係を学習するのに不十分です。
その結果、過去 5 年間にわたって、Transformer をより効率的にするための無数の方法が提案されてきました。
この作業では、まず一歩下がって、純粋な数学的定式化の観点から、既存のソリューションを調査し、ロング シーケンス モデリングと比較します。
具体的には、トークン混合の共通の性質を考慮して、統一されたテンプレートを使用してそれらを要約します。
次に、ベンチマークを通じて、アプリケーションに依存するにもかかわらず、長いコンテキスト長がパフォーマンスを向上させ、従来の Transformer モデルでは長距離依存関係を利用できないことを示します。
次に、大容量の新しいスパース モデルに触発されて、数百万規模の依存関係を処理するための機械学習システムを提案します。
概念実証として、このシステムの 1 つの重要なコンポーネント、つまり分散型マルチヘッド アテンションのパフォーマンスを評価します。
私たちのアルゴリズムは、通常のマルチヘッド アテンション メカニズムと比較して、4 つの GeForce RTX 4090 GPU を使用してアテンション計算をほぼ $40\times$ スケールアップできることを示しています。
この研究は、百万規模の依存関係をモデル化するための重要なステップであると信じています。
要約(オリジナル)
Ever since their conception, Transformers have taken over traditional sequence models in many tasks, such as NLP, image classification, and video/audio processing, for their fast training and superior performance. Much of the merit is attributable to positional encoding and multi-head attention. However, Transformers fall short in learning long-range dependencies mainly due to the quadratic complexity scaled with context length, in terms of both time and space. Consequently, over the past five years, a myriad of methods has been proposed to make Transformers more efficient. In this work, we first take a step back, study and compare existing solutions to long-sequence modeling in terms of their pure mathematical formulation. Specifically, we summarize them using a unified template, given their shared nature of token mixing. Through benchmarks, we then demonstrate that long context length does yield better performance, albeit application-dependent, and traditional Transformer models fall short in taking advantage of long-range dependencies. Next, inspired by emerging sparse models of huge capacity, we propose a machine learning system for handling million-scale dependencies. As a proof of concept, we evaluate the performance of one essential component of this system, namely, the distributed multi-head attention. We show that our algorithm can scale up attention computation by almost $40\times$ using four GeForce RTX 4090 GPUs, compared to vanilla multi-head attention mechanism. We believe this study is an instrumental step towards modeling million-scale dependencies.
arxiv情報
著者 | Hongyu Hè,Marko Kabic |
発行日 | 2023-02-14 14:29:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google