Clustering in Causal Attention Masking

要約

この研究は、Geshkovski らによって提案された自己注意力学の修正を示しています。
(arXiv:2312.10794) 生成 AI のトランスフォーマー アーキテクチャで使用される、実際に関連する、因果的にマスクされた注意をより適切に反映するため。
この変更は、平均場勾配流として解釈できない相互作用粒子システムに変換されます。
この構造の損失にもかかわらず、我々は Geshkovski らの結果を大幅に強化しました。
(arXiv:2312.10794) このコンテキスト: 以前の厳密な結果は、3 つの行列 (キー、クエリ、値) がすべてスケーリングされた恒等である場合に焦点を当てていましたが、任意のキークエリ行列と値行列について単一クラスターへの漸近収束を証明しました。
アイデンティティに等しい。
さらに、組み合わせ幾何学から古典的な R\’enyi パーキング問題への接続を確立し、準安定状態の存在を実証するための最初の理論的ステップを踏みます。

要約(オリジナル)

This work presents a modification of the self-attention dynamics proposed by Geshkovski et al. (arXiv:2312.10794) to better reflect the practically relevant, causally masked attention used in transformer architectures for generative AI. This modification translates into an interacting particle system that cannot be interpreted as a mean-field gradient flow. Despite this loss of structure, we significantly strengthen the results of Geshkovski et al. (arXiv:2312.10794) in this context: While previous rigorous results focused on cases where all three matrices (Key, Query, and Value) were scaled identities, we prove asymptotic convergence to a single cluster for arbitrary key-query matrices and a value matrix equal to the identity. Additionally, we establish a connection to the classical R\’enyi parking problem from combinatorial geometry to make initial theoretical steps towards demonstrating the existence of meta-stable states.

arxiv情報

著者 Nikita Karagodin,Yury Polyanskiy,Philippe Rigollet
発行日 2024-11-07 18:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 35Q68, 37N99, 68T07, 82C22, cs.AI, cs.LG, math.AP, math.DS パーマリンク