要約
トランスモデルは、多様なアプリケーションでの優れたパフォーマンスにより、さまざまな科学および工学分野にわたって基本的なツールとして浮上しています。
この経験的な成功にもかかわらず、トランスの理論的基盤は、特にトレーニングのダイナミクスを理解する上で、比較的未開発のままです。
既存の研究では、特にこれらのコンポーネント間の相互依存関係を徹底的に調査することなく、特に残留接続が存在する場合、自己触媒メカニズムやフィードフォワードネットワークなど、孤立したコンポーネントを主に検討します。
このホワイトペーパーでは、構造的に完全でありながら単一層変圧器の収束挙動を分析することにより、このギャップを埋めることを目指しています。
適切な初期化の下で、勾配降下は線形収束速度を示すことを実証します。ここでは、収束速度は注意層からの出力マトリックスの最小および最大特異値によって決定されます。
さらに、我々の分析では、残留接続がこの出力マトリックスの不条件を改善するのに役立つことが明らかになりました。これは、ソフトマックス動作によって課される低ランク構造に起因する問題であり、それにより最適化の安定性の強化を促進します。
また、理論的な調査結果を多層変圧器アーキテクチャに拡張し、適切な初期化下での勾配降下の線形収束速度を確認します。
経験的結果は、私たちの理論的洞察を裏付け、収束安定性を促進する上での残留接続の有益な役割を示しています。
要約(オリジナル)
Transformer models have emerged as fundamental tools across various scientific and engineering disciplines, owing to their outstanding performance in diverse applications. Despite this empirical success, the theoretical foundations of Transformers remain relatively underdeveloped, particularly in understanding their training dynamics. Existing research predominantly examines isolated components–such as self-attention mechanisms and feedforward networks–without thoroughly investigating the interdependencies between these components, especially when residual connections are present. In this paper, we aim to bridge this gap by analyzing the convergence behavior of a structurally complete yet single-layer Transformer, comprising self-attention, a feedforward network, and residual connections. We demonstrate that, under appropriate initialization, gradient descent exhibits a linear convergence rate, where the convergence speed is determined by the minimum and maximum singular values of the output matrix from the attention layer. Moreover, our analysis reveals that residual connections serve to ameliorate the ill-conditioning of this output matrix, an issue stemming from the low-rank structure imposed by the softmax operation, thereby promoting enhanced optimization stability. We also extend our theoretical findings to a multi-layer Transformer architecture, confirming the linear convergence rate of gradient descent under suitable initialization. Empirical results corroborate our theoretical insights, illustrating the beneficial role of residual connections in promoting convergence stability.
arxiv情報
著者 | Zhen Qin,Jinxin Zhou,Zhihui Zhu |
発行日 | 2025-06-05 17:10:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google