Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization

要約

Rotary Position Embedding (RoPE) を改善することで、Language Model (LM) のコンテキスト長を延長することがトレンドになっています。
既存の研究は主に注意メカニズム内の RoPE の制限に取り組んでいますが、この論文では LM のほぼすべての部分にわたる分析を提供し、RoPE ベースの注意の長さの一般化に対する悪影響を明らかにしています。
離散信号処理理論を使用して、RoPE が非一様離散フーリエ変換を暗黙的に達成することで定期的な注意を可能にすることを示します。
しかし、この周期性は、次のことによって引き起こされるスペクトル損傷によって損なわれます。1) 注意の外にある線形層と活性化関数。
2) 時間領域の切り捨てによってもたらされる、トレーニングが不十分な周波数成分。
私たちの観察に基づいて、アテンションの周波数領域特性を強化して、その周期的拡張と長さの一般化の両方を改善するフーリエ位置埋め込み (FoPE) を提案します。
FoPE はフーリエ級数を構築し、破壊的な周波数成分をゼロにして、スペクトル損傷に対するモデルの堅牢性を高めます。
さまざまなモデルスケールにわたる実験では、さまざまなコンテキストウィンドウ内で、RoPE や ALiBi と比較して、FoPE が干し草の山に針を刺すタスクにおいて、より安定したパープレキシティとより一貫した精度を維持できることが示されています。
いくつかの分析とアブレーションは、私たちの方法と理論的モデリングをさらにサポートします。

要約(オリジナル)

Extending the context length of Language Models (LMs) by improving Rotary Position Embedding (RoPE) has become a trend. While existing works mainly address RoPE’s limitations within attention mechanism, this paper provides an analysis across nearly all parts of LMs, uncovering their adverse effects on length generalization for RoPE-based attention. Using Discrete Signal Processing theory, we show that RoPE enables periodic attention by implicitly achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is undermined by the spectral damage caused by: 1) linear layers and activation functions outside of attention; 2) insufficiently trained frequency components brought by time-domain truncation. Building on our observations, we propose Fourier Position Embedding (FoPE), which enhances attention’s frequency-domain properties to improve both its periodic extension and length generalization. FoPE constructs Fourier Series and zero-outs the destructive frequency components, increasing model robustness against the spectrum damage. Experiments across various model scales show that, within varying context windows, FoPE can maintain a more stable perplexity and a more consistent accuracy in a needle-in-haystack task compared to RoPE and ALiBi. Several analyses and ablations bring further support to our method and theoretical modeling.

arxiv情報

著者 Ermo Hua,Che Jiang,Xingtai Lv,Kaiyan Zhang,Ning Ding,Youbang Sun,Biqing Qi,Yuchen Fan,Xue Kai Zhu,Bowen Zhou
発行日 2024-12-23 17:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク