要約
リカレントニューラルネットワーク(RNN)は、かなり穏やかで一般的な仮定の下で、動的システムの普遍的な近似器であることが知られており、時間情報を処理するための良いツールとなっている。しかし、RNNは通常、標準的なRNN学習における勾配の消失や爆発という問題に悩まされている。リカレント重みがランダム化され、未学習のまま放置される特殊なRNNであるリザーバーコンピューティング(RC)は、これらの問題を克服するために導入され、自然言語処理や無線通信などの多様な分野で、特に学習サンプルが極端に限られているシナリオにおいて、優れた経験的性能を実証している。一方、このような性能を裏付ける理論的根拠は、これまで十分に整備されてこなかった。本研究では、RNNが線形時不変(LTI)システムの普遍的な近似を提供できることを示す。具体的には、RCが一般的なLTIシステムを普遍的に近似できることを示す。我々は、RCの明確な信号処理解釈を提示し、RCを通して一般的なLTIシステムをシミュレーションする問題でこの理解を利用する。この設定の下で、RCの基礎となるRNNのリカレント重みを生成するための最適な確率分布関数を解析的に特徴付ける。LTIシステムのシミュレーション問題に対するRCのリカレント重みの最適分布の最適性を検証するために、広範な数値評価を行う。その結果、RCの信号処理に基づくモデルの解釈可能性が明確になり、RCのリカレント重みを訓練する代わりにランダム性を設定することの威力を理論的に説明できる。さらに、未トレーニングのリカレント重みの完全な最適解析的特徴を提供し、トレーニングサンプルが限られているアプリケーションにとって非常に重要な、説明可能な機械学習(XML)への重要な一歩を示す。
要約(オリジナル)
Recurrent neural networks (RNNs) are known to be universal approximators of dynamic systems under fairly mild and general assumptions, making them good tools to process temporal information. However, RNNs usually suffer from the issues of vanishing and exploding gradients in the standard RNN training. Reservoir computing (RC), a special RNN where the recurrent weights are randomized and left untrained, has been introduced to overcome these issues and has demonstrated superior empirical performance in fields as diverse as natural language processing and wireless communications especially in scenarios where training samples are extremely limited. On the contrary, the theoretical grounding to support this observed performance has not been fully developed at the same pace. In this work, we show that RNNs can provide universal approximation of linear time-invariant (LTI) systems. Specifically, we show that RC can universally approximate a general LTI system. We present a clear signal processing interpretation of RC and utilize this understanding in the problem of simulating a generic LTI system through RC. Under this setup, we analytically characterize the optimal probability distribution function for generating the recurrent weights of the underlying RNN of the RC. We provide extensive numerical evaluations to validate the optimality of the derived optimum distribution of the recurrent weights of the RC for the LTI system simulation problem. Our work results in clear signal processing-based model interpretability of RC and provides theoretical explanation for the power of randomness in setting instead of training RC’s recurrent weights. It further provides a complete optimum analytical characterization for the untrained recurrent weights, marking an important step towards explainable machine learning (XML) which is extremely important for applications where training samples are limited.
arxiv情報
著者 | Shashank Jere,Lizhong Zheng,Karim Said,Lingjia Liu |
発行日 | 2023-08-04 17:04:13+00:00 |
arxivサイト | arxiv_id(pdf) |