Inverse Approximation Theory for Nonlinear Recurrent Neural Networks

要約

RNN を使用して非線形シーケンス間の関係を近似するための逆近似定理を証明します。
これは、近似理論におけるいわゆるバーンスタイン型の結果であり、仮説空間によって効果的に近似できるという仮定の下でターゲット関数の特性を推定します。
特に、関数配列とみなした非線形配列関係は、hardtanh/tanh 活性化を伴う RNN によって安定して近似できるが、指数関数的に減衰する記憶構造を持たなければならないことを示します。この概念は正確にすることができます。
これは、以前に特定された線形 RNN のメモリの呪いを一般的な非線形設定に拡張し、長期記憶との逐次関係を学習するための RNN アーキテクチャの本質的な制限を定量化します。
分析に基づいて、制限を克服するための原則に基づいた再パラメータ化方法を提案します。
理論上の結果は数値実験によって確認されます。

要約(オリジナル)

We prove an inverse approximation theorem for the approximation of nonlinear sequence-to-sequence relationships using RNNs. This is a so-called Bernstein-type result in approximation theory, which deduces properties of a target function under the assumption that it can be effectively approximated by a hypothesis space. In particular, we show that nonlinear sequence relationships, viewed as functional sequences, that can be stably approximated by RNNs with hardtanh/tanh activations must have an exponential decaying memory structure — a notion that can be made precise. This extends the previously identified curse of memory in linear RNNs into the general nonlinear setting, and quantifies the essential limitations of the RNN architecture for learning sequential relationships with long-term memory. Based on the analysis, we propose a principled reparameterization method to overcome the limitations. Our theoretical results are confirmed by numerical experiments.

arxiv情報

著者 Shida Wang,Zhong Li,Qianxiao Li
発行日 2023-05-30 16:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.DS パーマリンク