AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective

要約

この論文では、分散最適化の観点からコンセンサスの不一致を利用することにより、Transformer における標準の Attend を拡張します。これは、AttendanceX と呼ばれます。
主双対乗算法 (PDMM) \cite{Zhang16PDMM} は、ピアツーピア (P2P) ネットワーク上で広範なクラスの分散最適化問題を反復的に解決するように設計されていることに注意してください。P2P ネットワークでは、隣接するノードが徐々に合意に達します。
最適化プロセスで事前定義された線形エッジ制約によって指定されます。
特に、PDMM の各反復では、ネットワーク内の各ノードはまず近隣ノードからの情報収集を実行し、次にローカルな情報融合を実行します。
高レベルの観点から見ると、attention の $V$ 表現の $KQ$-softmax ベースの加重合計は、近隣からの情報収集に対応し、transformer のフィードフォワード ネットワーク (FFN) を介した特徴処理が対応します。
地域情報の融合へ。
PDMM は、ラグランジュ乗数を利用して、線形エッジ制約の残留誤差の形で過去のコンセンサスの不一致を捕捉します。これは、アルゴリズムが収束するために重要な役割を果たします。
PDMM からインスピレーションを得て、私たちは、標準的なアテンションの出力更新式にコンセンサスの不一致を組み込むためのアテンション X を提案します。
AttendanceX におけるコンセンサスの不一致とは、$V$ 表現の加重合計とスケーリングされた $V$ 表現自体の間の差異を指します。
ViT と nanoGPT の実験では、有望なパフォーマンスが示されています。

要約(オリジナル)

In this paper, we extend the standard Attention in transformer by exploiting the consensus discrepancy from a distributed optimization perspective, referred to as AttentionX. It is noted that the primal-dual method of multipliers (PDMM) \cite{Zhang16PDMM} is designed to iteratively solve a broad class of distributed optimization problems over a pear-to-pear (P2P) network, where neighbouring nodes gradually reach consensus as specified by predefined linear edge-constraints in the optimization process. In particular, at each iteration of PDMM, each node in a network first performs information-gathering from neighbours and then performs local information-fusion. From a high-level point of view, the $KQ$-softmax-based weighted summation of $V$-representations in Attention corresponds information-gathering from neighbours while the feature-processing via the feed-forward network (FFN) in transformer corresponds to local information fusion. PDMM exploits the Lagrangian multipliers to capture the historical consensus discrepancy in the form of residual errors of the linear edge-constraints, which plays a crucial role for the algorithm to converge. Inspired by PDMM, we propose AttentionX to incorporate the consensus discrepancy in the output update-expression of the standard Attention. The consensus discrepancy in AttentionX refers to the difference between the weighted summation of $V$-representations and scaled $V$-representions themselves. Experiments on ViT and nanoGPT show promising performance.

arxiv情報

著者 Guoqiang Zhang,Richard Heusdens
発行日 2024-09-09 13:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク