Volume-Preserving Transformers for Learning Time Series Data with Structure

要約

過去数年間のニューラル ネットワーク研究における多くの傾向のうちの 2 つは、(i) 特に長短期記憶ネットワーク (LSTM) などのリカレント ニューラル ネットワークを使用した動的システムの学習、および (ii) トランスフォーマー ニューラルの導入です。
自然言語処理 (NLP) タスク用のネットワーク。
これら 2 つの傾向が交差する点についてはいくつかの作業が行われてきましたが、それらの作業は主に、物理システムの設定に合わせてアーキテクチャを調整せずにバニラ トランスフォーマーを直接使用することに限定されていました。
この研究では、変圧器にヒントを得たニューラル ネットワークを開発し、それを使用して動的システムを学習します。
私たちは(初めて)注目層の活性化機能を変更して、トランスに構造保存特性を与え、長期安定性を向上させます。
これは、ニューラル ネットワークを剛体の軌道の学習に適用する場合に大きな利点があることが示されています。

要約(オリジナル)

Two of the many trends in neural network research of the past few years have been (i) the learning of dynamical systems, especially with recurrent neural networks such as long short-term memory networks (LSTMs) and (ii) the introduction of transformer neural networks for natural language processing (NLP) tasks. While some work has been performed on the intersection of these two trends, those efforts were largely limited to using the vanilla transformer directly without adjusting its architecture for the setting of a physical system. In this work we develop a transformer-inspired neural network and use it to learn a dynamical system. We (for the first time) change the activation function of the attention layer to imbue the transformer with structure-preserving properties to improve long-term stability. This is shown to be of great advantage when applying the neural network to learning the trajectory of a rigid body.

arxiv情報

著者 Benedikt Brantner,Guillaume de Romemont,Michael Kraus,Zeyuan Li
発行日 2024-11-14 13:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 37M15, 65D30, 65P10, 68T07, cs.LG, cs.NA, math.NA パーマリンク