Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues

要約

位置ごとの MLP がインターリーブされた線形複素数値 RNN に基づくディープ ニューラル ネットワークは、シーケンス モデリングへの競合アプローチとして注目を集めています。
このようなアーキテクチャの例には、S4、LRU、Mamba などの状態空間モデル (SSM) が含まれます。これらは、テキスト、遺伝学、および長期推論を必要とするその他のデータに対して有望なパフォーマンスを達成する最近提案されたモデルです。
これらのアーキテクチャの有効性と計算効率を強調する実験的証拠にもかかわらず、その表現力は、特に実際に重要な特定の選択、たとえば注意深く設計された初期化分布や複素数の使用に関連して、比較的未解明のままです。
この論文では、MLP を実数または複素数の線形対角再発と組み合わせることで、規則的な因果系列間マップの任意の精度の近似が得られることを示します。
私たちの証明の核心は、関心の分離に依存しています。つまり、線形 RNN は入力シーケンスの可逆符号化を提供し、MLP はこの符号化に対して非線形処理を実行します。
このアーキテクチャでは、実際の対角線形再帰を使用することで普遍性を達成するのに十分であることを示しますが、単位円板に近い複素固有値を使用すること(つまり、経験的に SSM で最も成功した戦略)が、RNN が情報を保存するのに非常に役立つことを証明します。
私たちはこの発見を勾配消失の問題と結び付け、私たちの主張を裏付ける実験的証拠を提供します。

要約(オリジナル)

Deep neural networks based on linear complex-valued RNNs interleaved with position-wise MLPs are gaining traction as competitive approaches to sequence modeling. Examples of such architectures include state-space models (SSMs) like S4, LRU, and Mamba: recently proposed models that achieve promising performance on text, genetics, and other data that require long-range reasoning. Despite experimental evidence highlighting these architectures’ effectiveness and computational efficiency, their expressive power remains relatively unexplored, especially in connection to specific choices crucial in practice – e.g., carefully designed initialization distribution and use of complex numbers. In this paper, we show that combining MLPs with both real or complex linear diagonal recurrences leads to arbitrarily precise approximation of regular causal sequence-to-sequence maps. At the heart of our proof, we rely on a separation of concerns: the linear RNN provides a lossless encoding of the input sequence, and the MLP performs non-linear processing on this encoding. While we show that using real diagonal linear recurrences is enough to achieve universality in this architecture, we prove that employing complex eigenvalues near unit disk – i.e., empirically the most successful strategy in SSMs – greatly helps the RNN in storing information. We connect this finding with the vanishing gradient issue and provide experimental evidence supporting our claims.

arxiv情報

著者 Antonio Orvieto,Soham De,Caglar Gulcehre,Razvan Pascanu,Samuel L. Smith
発行日 2024-03-11 17:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク