要約
過去数年間のニューラル ネットワーク研究における多くの傾向のうちの 2 つは、(i) 特に長短期記憶ネットワーク (LSTM) などのリカレント ニューラル ネットワークを使用した動的システムの学習、および (ii) トランスフォーマー ニューラルの導入です。
自然言語処理 (NLP) タスク用のネットワーク。
これらのトレンドはいずれも、特に 2 番目のトレンドとして多大な注目を集めています。現在、変圧器ネットワークが NLP の分野を支配しています。
これら 2 つの傾向が交差する点についてはいくつかの作業が行われてきましたが、その取り組みは主に、物理システムの設定に合わせてアーキテクチャを調整せずにバニラ トランスフォーマーを直接使用することに限定されていました。
この研究では、トランスフォーマーからインスピレーションを得たニューラル ネットワークを使用して動的システムを学習し、さらに (初めて) 長期安定性を向上させるために構造保存特性をそれに注入します。
これは、ニューラル ネットワークを現実世界のアプリケーションに適用する場合に大きな利点があることが示されています。
要約(オリジナル)
Two of the many trends in neural network research of the past few years have been (i) the learning of dynamical systems, especially with recurrent neural networks such as long short-term memory networks (LSTMs) and (ii) the introduction of transformer neural networks for natural language processing (NLP) tasks. Both of these trends have created enormous amounts of traction, particularly the second one: transformer networks now dominate the field of NLP. Even though some work has been performed on the intersection of these two trends, those efforts was largely limited to using the vanilla transformer directly without adjusting its architecture for the setting of a physical system. In this work we use a transformer-inspired neural network to learn a dynamical system and furthermore (for the first time) imbue it with structure-preserving properties to improve long-term stability. This is shown to be of great advantage when applying the neural network to real world applications.
arxiv情報
著者 | Benedikt Brantner,Guillaume de Romemont,Michael Kraus,Zeyuan Li |
発行日 | 2024-05-01 15:37:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google