Easy attention: A simple self-attention mechanism for Transformers

要約

カオスシステムの時間ダイナミクス予測に使用されるトランスフォーマーニューラルネットワークのロバスト性を向上させるために、我々は、イージーアテンションと呼ばれる新しいアテンションメカニズムを提案します。
セルフ アテンションはクエリとキーの内積のみを使用するという事実により、時系列での長期依存関係をキャプチャするために必要なアテンション スコアを取得するためにキー、クエリ、ソフトマックスは必要ないことが実証されています。
ソフトマックス アテンション スコアに特異値分解 (SVD) を実装することにより、セルフ アテンションがアテンション スコアのスパン空間内のクエリとキーの両方からの寄与を圧縮することがさらに観察されます。
したがって、私たちが提案する簡単な注意方法は、注意スコアを学習可能なパラメータとして直接扱います。
このアプローチは、自己注意や広く使用されている長短期記憶 (LSTM) ネットワークよりも堅牢性が高く、複雑さが少ないカオス システムの時間ダイナミクスを再構築および予測する場合に優れた結果をもたらします。
私たちの結果は、より複雑な高次元動的システムへの応用に大きな可能性を示しています。

要約(オリジナル)

To improve the robustness of transformer neural networks used for temporal-dynamics prediction of chaotic systems, we propose a novel attention mechanism called easy attention. Due to the fact that self attention only makes usage of the inner product of queries and keys, it is demonstrated that the keys, queries and softmax are not necessary for obtaining the attention score required to capture long-term dependencies in temporal sequences. Through implementing singular-value decomposition (SVD) on the softmax attention score, we further observe that the self attention compresses contribution from both queries and keys in the spanned space of the attention score. Therefore, our proposed easy-attention method directly treats the attention scores as learnable parameters. This approach produces excellent results when reconstructing and predicting the temporal dynamics of chaotic systems exhibiting more robustness and less complexity than the self attention or the widely-used long short-term memory (LSTM) network. Our results show great potential for applications in more complex high-dimensional dynamical systems.

arxiv情報

著者 Marcial Sanchis-Agudo,Yuning Wang,Karthik Duraisamy,Ricardo Vinuesa
発行日 2023-08-24 15:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク