Convergence Rates of Training Deep Neural Networks via Alternating Minimization Methods

要約

タイトル:交互最小化法によるディープニューラルネットワークのトレーニングの収束速度

要約:
– ディープニューラルネットワークのトレーニングは、非凸性と非分離性のため、機械学習における重要かつ難しい最適化問題である。
– 交互最小化法(AM)アプローチは、DNNの構成構造を分割し、深層学習や最適化コミュニティで大きな関心を集めている。
– 本稿では、AMタイプのネットワークトレーニング方法の収束速度を解析するための統一フレームワークを提案する。
– 分析は、非単調な$j$-step十分な減少条件とKurdyka-Lojasiewicz(KL)特性に基づいており、降下アルゴリズムの設計要件を緩和する。
– KL指数$\theta$が$[0,1)$の場合、詳細な局所収束速度を示す。
– 加えて、より強い$j$-step十分な減少条件の下での局所R線形収束についても議論される。

要約(オリジナル)

Training deep neural networks (DNNs) is an important and challenging optimization problem in machine learning due to its non-convexity and non-separable structure. The alternating minimization (AM) approaches split the composition structure of DNNs and have drawn great interest in the deep learning and optimization communities. In this paper, we propose a unified framework for analyzing the convergence rate of AM-type network training methods. Our analysis is based on the non-monotone $j$-step sufficient decrease conditions and the Kurdyka-Lojasiewicz (KL) property, which relaxes the requirement of designing descent algorithms. We show the detailed local convergence rate if the KL exponent $\theta$ varies in $[0,1)$. Moreover, the local R-linear convergence is discussed under a stronger $j$-step sufficient decrease condition.

arxiv情報

著者 Jintao Xu,Chenglong Bao,Wenxun Xing
発行日 2023-04-04 07:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 49M37, 90C26, 90C52, cs.LG, math.OC パーマリンク