Multiplicative update rules for accelerating deep learning training and increasing robustness

要約

ディープラーニング (DL) が幅広い研究領域で最先端のパフォーマンスを達成している現在でも、トレーニングを加速し、堅牢な DL モデルを構築することは依然として困難な課題です。
この目的を達成するために、何世代にもわたる研究者は、重み分布、モデル アーキテクチャ、損失状況の影響を受けにくい DL アーキテクチャをトレーニングするための堅牢な方法の開発を追求してきました。
ただし、そのような方法は、パラメーター更新の基本的なルールを調査することなく、適応学習率オプティマイザー、初期化スキーム、およびクリッピング勾配に限定されます。
乗法的更新は機械学習の初期開発に大きく貢献しており、強力な理論的主張を保持していますが、私たちの知る限り、これは DL トレーニングの高速化とロバスト性の観点から乗法的更新を調査した最初の研究です。
この研究では、幅広い最適化アルゴリズムに適合し、代替の更新ルールを適用できるようにする最適化フレームワークを提案します。
この目的を達成するために、我々は新しい乗法更新ルールを提案し、新しいハイブリッド更新方法の下で、それを従来の加法更新項と組み合わせることでその機能を拡張します。
私たちは、提案されたフレームワークがトレーニングを高速化しながら、従来使用されてきた追加的な更新ルールとは対照的に、より堅牢なモデルを生成すると主張し、幅広いタスクおよび最適化手法でその有効性を実験的に実証しています。
このようなタスクは、凸型および非凸型の最適化から、従来から使用されている幅広い最適化手法とディープ ニューラル ネットワーク (DNN) アーキテクチャを適用する難しい画像分類ベンチマークに及びます。

要約(オリジナル)

Even nowadays, where Deep Learning (DL) has achieved state-of-the-art performance in a wide range of research domains, accelerating training and building robust DL models remains a challenging task. To this end, generations of researchers have pursued to develop robust methods for training DL architectures that can be less sensitive to weight distributions, model architectures and loss landscapes. However, such methods are limited to adaptive learning rate optimizers, initialization schemes, and clipping gradients without investigating the fundamental rule of parameters update. Although multiplicative updates have contributed significantly to the early development of machine learning and hold strong theoretical claims, to best of our knowledge, this is the first work that investigate them in context of DL training acceleration and robustness. In this work, we propose an optimization framework that fits to a wide range of optimization algorithms and enables one to apply alternative update rules. To this end, we propose a novel multiplicative update rule and we extend their capabilities by combining it with a traditional additive update term, under a novel hybrid update method. We claim that the proposed framework accelerates training, while leading to more robust models in contrast to traditionally used additive update rule and we experimentally demonstrate their effectiveness in a wide range of task and optimization methods. Such tasks ranging from convex and non-convex optimization to difficult image classification benchmarks applying a wide range of traditionally used optimization methods and Deep Neural Network (DNN) architectures.

arxiv情報

著者 Manos Kirtas,Nikolaos Passalis,Anastasios Tefas
発行日 2023-07-14 06:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク