Linear Dynamics-embedded Neural Network for Long-Sequence Modeling

要約

長期シーケンス モデリングにおけるパフォーマンスと計算効率の間のトレードオフが、既存のモデルのボトルネックになります。
制御理論における多入力および多出力を備えた連続状態空間モデル (SSM) に触発され、線形ダイナミクス組み込みニューラル ネットワーク (LDNN) と呼ばれる新しいニューラル ネットワークを提案します。
SSM の連続、離散、畳み込みの特性により、LDNN はパラメーターが少なく、柔軟な推論が可能になり、長いシーケンスのタスクで効率的なトレーニングが可能になります。
畳み込みの時間計算量を $O(LNH\max\{L, N\})$ から $ に削減するために、対角化と $’\text{もつれを解いてから高速フーリエ変換 (FFT)}’$ という 2 つの効率的な戦略が開発されました。
O(LN\max \{H, \log L\})$。
双方向の非因果的およびマルチヘッド設定を通じて LDNN をさらに改善し、より幅広いアプリケーションに対応します。
ロングレンジ アリーナ (LRA) での大規模な実験により、LDNN の有効性と最先端のパフォーマンスが実証されました。

要約(オリジナル)

The trade-off between performance and computational efficiency in long-sequence modeling becomes a bottleneck for existing models. Inspired by the continuous state space models (SSMs) with multi-input and multi-output in control theory, we propose a new neural network called Linear Dynamics-embedded Neural Network (LDNN). SSMs’ continuous, discrete, and convolutional properties enable LDNN to have few parameters, flexible inference, and efficient training in long-sequence tasks. Two efficient strategies, diagonalization and $’\text{Disentanglement then Fast Fourier Transform (FFT)}’$, are developed to reduce the time complexity of convolution from $O(LNH\max\{L, N\})$ to $O(LN\max \{H, \log L\})$. We further improve LDNN through bidirectional noncausal and multi-head settings to accommodate a broader range of applications. Extensive experiments on the Long Range Arena (LRA) demonstrate the effectiveness and state-of-the-art performance of LDNN.

arxiv情報

著者 Tongyi Liang,Han-Xiong Li
発行日 2024-02-23 12:36:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク