Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier Layers

要約

Transformer ベースの言語モデルは、アテンション メカニズムを利用して、ほぼすべての自然言語処理 (NLP) タスクのパフォーマンスを大幅に向上させます。
同様の注意構造は、他のいくつかの分野でも広く研究されています。
アテンション メカニズムはモデルのパフォーマンスを大幅に向上させますが、二次関数の複雑さにより長いシーケンスの効率的な処理が妨げられます。
最近の研究は、計算効率の悪さによる欠点を解消することに焦点を当てており、トランスフォーマーベースのモデルがアテンション層がなくても競争力のある結果を達成できることを示しました。
先駆的な研究では、トランス エンコーダ アーキテクチャのアテンション層をフーリエ変換 (FT) に置き換える FNet が提案されました。
FNet は、アテンション メカニズムの計算負荷を取り除くことでトレーニング プロセスを加速しながら、元のトランスエンコーダ モデルに関して競合するパフォーマンスを達成します。
ただし、FNet モデルは、モデル効率をさらに向上させるために活用できる古典的な信号処理からの FT の重要な特性を無視します。
変圧器エンコーダ モデルに FT を効率的に導入するためのさまざまな方法を提案します。
私たちが提案するアーキテクチャでは、モデル パラメーターの数が減り、トレーニング時間が短縮され、メモリ使用量が減り、さらにパフォーマンスが向上します。
私たちは、一般的なベンチマークでの広範な実験を通じてこれらの改善を実証します。

要約(オリジナル)

Transformer-based language models utilize the attention mechanism for substantial performance improvements in almost all natural language processing (NLP) tasks. Similar attention structures are also extensively studied in several other areas. Although the attention mechanism enhances the model performances significantly, its quadratic complexity prevents efficient processing of long sequences. Recent works focused on eliminating the disadvantages of computational inefficiency and showed that transformer-based models can still reach competitive results without the attention layer. A pioneering study proposed the FNet, which replaces the attention layer with the Fourier Transform (FT) in the transformer encoder architecture. FNet achieves competitive performances concerning the original transformer encoder model while accelerating training process by removing the computational burden of the attention mechanism. However, the FNet model ignores essential properties of the FT from the classical signal processing that can be leveraged to increase model efficiency further. We propose different methods to deploy FT efficiently in transformer encoder models. Our proposed architectures have smaller number of model parameters, shorter training times, less memory usage, and some additional performance improvements. We demonstrate these improvements through extensive experiments on common benchmarks.

arxiv情報

著者 Nurullah Sevim,Ege Ozan Özyedek,Furkan Şahinuç,Aykut Koç
発行日 2023-05-16 13:16:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.GL, eess.AS パーマリンク