要約
この論文では、変圧器モデルが Rotary Position Embedding (RoPE) の理論的制限を効果的に補償する堅牢なウェーブレットのような特性をどのように開発するかを研究し、これらのネットワークがさまざまなスケールにわたる連続情報をどのように処理するかについての洞察を提供します。
1B から 12B パラメータにわたるモデルにわたる理論的分析と経験的検証を通じて、アテンションヘッドがウェーブレット変換に類似した多重解像度処理を実装するように自然に進化することを示します。
私たちの分析では、アテンション ヘッドが体系的なパワー分布パターンを持つ相補的な周波数帯域に一貫して組織されており、これらのウェーブレットのような特性が大規模なモデルでより顕著になることが証明されています。
これらの特性が、位置精度と周波数分解能の間の基本的な不確実性原理に対する最適解とどのように一致するかを示す数学的分析を提供します。
私たちの調査結果は、現代の変圧器アーキテクチャの有効性は、位置エンコーディングの理論的制約に自然に対処する最適な多重解像度分解の開発に大きく起因していることを示唆しています。
要約(オリジナル)
This paper studies how transformer models develop robust wavelet-like properties that effectively compensate for the theoretical limitations of Rotary Position Embeddings (RoPE), providing insights into how these networks process sequential information across different scales. Through theoretical analysis and empirical validation across models ranging from 1B to 12B parameters, we show that attention heads naturally evolve to implement multi-resolution processing analogous to wavelet transforms. Our analysis establishes that attention heads consistently organize into complementary frequency bands with systematic power distribution patterns, and these wavelet-like characteristics become more pronounced in larger models. We provide mathematical analysis showing how these properties align with optimal solutions to the fundamental uncertainty principle between positional precision and frequency resolution. Our findings suggest that the effectiveness of modern transformer architectures stems significantly from their development of optimal multi-resolution decompositions that naturally address the theoretical constraints of position encoding.
arxiv情報
著者 | Valeria Ruscio,Fabrizio Silvestri |
発行日 | 2025-01-21 17:50:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google