How Smooth Is Attention?

要約

自己注意と仮面をかぶった自己注意が、トランスフォーマーの傑出した成功の核心です。
それでも、注意、特にロバスト性と表現力を分析する際に重要となるリプシッツ特性についての私たちの数学的理解は不完全です。
いくつかの実際的なシナリオにおける自己注意のリプシッツ定数の詳細な研究を提供し、マスクされていない自己注意とマスクされた自己注意の両方の局所的なリプシッツ定数に対する系列長 $n$ と層正規化の影響について議論します。
特に、任意のコンパクト集合内の長さ $n$ の入力に対して、自己注意のリプシッツ定数は定数因数まで $\sqrt{n}$ によって制限され、この制限は妥当なシーケンス長に対して狭いことを示します。

系列の長さ $n$ が大きすぎて前の限界が厳しくない場合 (これを平均場レジームと呼びます)、$n$ とは独立した上限と対応する下限を提供します。
マスクされた自己注意のための私たちの平均場フレームワークは新規であり、独立した興味深いものです。
事前トレーニングされ、ランダムに初期化された BERT と GPT-2 に関する実験は、理論的な発見を裏付けています。

要約(オリジナル)

Self-attention and masked self-attention are at the heart of Transformers’ outstanding success. Still, our mathematical understanding of attention, in particular of its Lipschitz properties – which are key when it comes to analyzing robustness and expressive power – is incomplete. We provide a detailed study of the Lipschitz constant of self-attention in several practical scenarios, discussing the impact of the sequence length $n$ and layer normalization on the local Lipschitz constant of both unmasked and masked self-attention. In particular, we show that for inputs of length $n$ in any compact set, the Lipschitz constant of self-attention is bounded by $\sqrt{n}$ up to a constant factor and that this bound is tight for reasonable sequence lengths. When the sequence length $n$ is too large for the previous bound to be tight, which we refer to as the mean-field regime, we provide an upper bound and a matching lower bound which are independent of $n$. Our mean-field framework for masked self-attention is novel and of independent interest. Our experiments on pretrained and randomly initialized BERT and GPT-2 support our theoretical findings.

arxiv情報

著者 Valérie Castin,Pierre Ablin,Gabriel Peyré
発行日 2024-06-04 15:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク