The FFT Strikes Back: An Efficient Alternative to Self-Attention

要約

従来の自己関節メカニズムには二次の複雑さが発生し、長いシーケンスでのスケーラビリティが制限されます。
高速フーリエ変換(FFT)を活用して$ \ mathcal {o}(n \ log n)$時間でグローバルなトークンミキシングを実現する適応スペクトルフィルタリングフレームワークであるFFTNETを紹介します。
入力を周波数ドメインに変換することにより、FFTNETは、長距離依存関係を効率的にキャプチャするために、Parsevalの定理によって保証された直交性とエネルギー保存を活用します。
学習可能なスペクトルフィルターとModreluの活性化は、顕著な周波数コンポーネントを動的に強調し、従来の自己関節に代わる厳密で適応的な代替品を提供します。
長距離アリーナとイメージネットのベンチマークでの実験は、当社の理論的洞察を検証し、固定フーリエおよび標準の注意モデルよりも優れた性能を示します。

要約(オリジナル)

Conventional self-attention mechanisms incur quadratic complexity, limiting their scalability on long sequences. We introduce FFTNet, an adaptive spectral filtering framework that leverages the Fast Fourier Transform (FFT) to achieve global token mixing in $\mathcal{O}(n\log n)$ time. By transforming inputs into the frequency domain, FFTNet exploits the orthogonality and energy preservation guaranteed by Parseval’s theorem to capture long-range dependencies efficiently. A learnable spectral filter and modReLU activation dynamically emphasize salient frequency components, providing a rigorous and adaptive alternative to traditional self-attention. Experiments on the Long Range Arena and ImageNet benchmarks validate our theoretical insights and demonstrate superior performance over fixed Fourier and standard attention models.

arxiv情報

著者 Jacob Fein-Ashley
発行日 2025-02-26 16:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク