要約
確率的勾配降下(SGD)アルゴリズムは、ディープラーニングモデルのトレーニングにおいて驚くべき成功を収めています。
ただし、勾配の消失に対する感受性、入力データに対する感度、堅牢な理論的保証の欠如など、いくつかの制限があります。
近年、勾配のないアプローチを採用してモデルパラメーターを繰り返し更新することにより、モデルトレーニングの有望な代替手段として、交互の最小化(AM)メソッドが浮上しています。
その可能性にもかかわらず、これらの方法はしばしば遅い収束率を示します。
この課題に対処するために、ニューラルネットワークトレーニングのための新しいトリプルインチール型加速交互の最小化(TIAM)フレームワークを提案します。
TIAMアプローチには、特殊な近似法を備えたトリプルインチール型加速戦略が組み込まれており、各サブ問題の最適化における異なる用語のターゲット加速度を促進します。
この統合により、収束の効率が向上し、繰り返しが少ないと優れたパフォーマンスを達成します。
さらに、グローバルな収束特性と収束率を含むTIAMアルゴリズムの収束分析を提供します。
広範な実験は、TIAMメソッドの有効性を検証し、既存のアプローチと比較して、一般化能力と計算効率の大幅な改善を示しています。
要約(オリジナル)
The stochastic gradient descent (SGD) algorithm has achieved remarkable success in training deep learning models. However, it has several limitations, including susceptibility to vanishing gradients, sensitivity to input data, and a lack of robust theoretical guarantees. In recent years, alternating minimization (AM) methods have emerged as a promising alternative for model training by employing gradient-free approaches to iteratively update model parameters. Despite their potential, these methods often exhibit slow convergence rates. To address this challenge, we propose a novel Triple-Inertial Accelerated Alternating Minimization (TIAM) framework for neural network training. The TIAM approach incorporates a triple-inertial acceleration strategy with a specialized approximation method, facilitating targeted acceleration of different terms in each sub-problem optimization. This integration improves the efficiency of convergence, achieving superior performance with fewer iterations. Additionally, we provide a convergence analysis of the TIAM algorithm, including its global convergence properties and convergence rate. Extensive experiments validate the effectiveness of the TIAM method, showing significant improvements in generalization capability and computational efficiency compared to existing approaches, particularly when applied to the rectified linear unit (ReLU) and its variants.
arxiv情報
著者 | Chengcheng Yan,Jiawei Xu,Qingsong Wang,Zheng Peng |
発行日 | 2025-03-11 14:42:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google