Pointwise convergence theorem of generalized mini-batch gradient descent in deep neural network

要約

タイトル:深層ニューラルネットワークにおける一般化ミニバッチ勾配降下法の点収束定理

要約:

– 深層ニューラルネットワーク(DNN)の理論構造は徐々に明らかになっている。
– Imaizumi-Fukumizu(2019)と鈴木(2019)は、ターゲット関数がスムーズでない場合、DNNの学習能力が以前の理論よりも優れていることを明らかにした。
– しかし、筆者は知る限り、これまでの多くの研究では、(統計的なアプローチを用いずに)どのようなDNNアーキテクチャが勾配降下法の点収束を本当に引き起こすかを数学的に調査する試みはなかった。
– この論文では、ターゲット関数をスムーズでないインジケータ関数に制限し、ReLU-DNNにおいてミニバッチ勾配降下法によって点収束を誘発する深層ニューラルネットワークを構築する。

「これまでのDNN研究では勾配降下法の収束の数学的分析が不十分である」という問題を解決するため、本論文はインジケータ関数を用いたDNNアーキテクチャでの点収束定理を提案している。この定理は、勾配降下法が最適解に収束するまでのプロセスを明確に示しており、DNNの実践的な応用に貢献する。

要約(オリジナル)

The theoretical structure of deep neural network (DNN) has been clarified gradually. Imaizumi-Fukumizu (2019) and Suzuki (2019) clarified that the learning ability of DNN is superior to the previous theories when the target function is non-smooth functions. However, as far as the author is aware, none of the numerous works to date attempted to mathematically investigate what kind of DNN architectures really induce pointwise convergence of gradient descent (without any statistical argument), and this attempt seems to be closer to the practical DNNs. In this paper we restrict target functions to non-smooth indicator functions, and construct a deep neural network inducing pointwise convergence provided by mini-batch gradient descent process in ReLU-DNN.

arxiv情報

著者 Tsuyoshi Yoneda
発行日 2023-04-17 11:38:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IT, cs.LG, math.AP, math.IT パーマリンク