要約
Transformer アーキテクチャはシーケンス モデリング アプリケーションに広く適用されていますが、その動作原理の理論的理解は依然として限られています。
この研究では、1 つのヘッドを備えた単層トランスフォーマーの近似率を調査します。
非線形関係のクラスを考慮し、Transformer の明示的なジャクソン型近似率推定を確立するための複雑さの尺度の新しい概念を特定します。
この比率は、Transformer の構造特性を明らかにし、近似するのに最適な連続関係のタイプを示唆します。
特に、近似率に関する結果により、Transformer とリカレント ニューラル ネットワークなどの古典的なシーケンス モデリング手法との違いを具体的に分析することができます。
要約(オリジナル)
The Transformer architecture is widely applied in sequence modeling applications, yet the theoretical understanding of its working principles remains limited. In this work, we investigate the approximation rate for single-layer Transformers with one head. We consider a class of non-linear relationships and identify a novel notion of complexity measures to establish an explicit Jackson-type approximation rate estimate for the Transformer. This rate reveals the structural properties of the Transformer and suggests the types of sequential relationships it is best suited for approximating. In particular, the results on approximation rates enable us to concretely analyze the differences between the Transformer and classical sequence modeling methods, such as recurrent neural networks.
arxiv情報
著者 | Haotian Jiang,Qianxiao Li |
発行日 | 2025-01-02 05:02:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google